NLP
lisy9704
这个作者很懒,什么都没留下…
展开
-
NLP新闻文本分类之5基于深度学习的文本分析2
Task05:基于深度学习的文本分类2学习目标文本表示方法3词向量学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类对于文本分类来说,FastText模型还不是最优的,虽然它可以提高学习效率。文本表示方法3词向量Word2VecWord2Vec模型的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,Word2Ve原创 2020-07-31 20:54:13 · 148 阅读 · 0 评论 -
NLP新闻文本分类之4基于深度学习的文本分类
Task04基于深度学习的文本分类1基于深度学习的文本分类学习目标文本表示方法2FastText基于深度学习的文本分类学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法2FastTextFastText是一种典型的深度学习词向量的表示方法,...原创 2020-07-27 22:02:00 · 175 阅读 · 0 评论 -
NLP新闻文本分类之3机器学习文本分类
Task03-基于机器学习的文本分类学习目标理论储备文本表示方法One-hotBag of Words基于机器学习的文本分类Count Vectors+RidgeClassifierTF-IDF+RidgeClassifier本章作业学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类理论储备TF-IDF名词解释:词频(Term Frequency,TF) 指的是在一份给定的文件里,某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母,原创 2020-07-25 18:58:40 · 231 阅读 · 0 评论 -
NLP新闻文本分类之2数据读取
Task02-数据读取与数据分析数据读取数据分析句子长度分析新闻类别分布字符分布结论本次学习主要内容是:先用pandas读取数据,然后对数据进行简单的描述性统计。数据读取训练集数据共20w条左右,下载解压后的格式即为csv格式,因此可以直接用pandas进行数据读取。import pandas as pdtrain_df = pd.read_csv('train_set.csv', sep='\t') #因为训练集有20w条,数据太大,也可以只选择读取前100条:nrows=100train_d原创 2020-07-22 21:51:31 · 233 阅读 · 0 评论