自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 NLP新闻文本分类之5基于深度学习的文本分析2

Task05:基于深度学习的文本分类2学习目标文本表示方法3词向量学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类对于文本分类来说,FastText模型还不是最优的,虽然它可以提高学习效率。文本表示方法3词向量Word2VecWord2Vec模型的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,Word2Ve

2020-07-31 20:54:13 155

原创 NLP新闻文本分类之4基于深度学习的文本分类

Task04基于深度学习的文本分类1基于深度学习的文本分类学习目标文本表示方法2FastText基于深度学习的文本分类学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法2FastTextFastText是一种典型的深度学习词向量的表示方法,...

2020-07-27 22:02:00 183

原创 NLP新闻文本分类之3机器学习文本分类

Task03-基于机器学习的文本分类学习目标理论储备文本表示方法One-hotBag of Words基于机器学习的文本分类Count Vectors+RidgeClassifierTF-IDF+RidgeClassifier本章作业学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类理论储备TF-IDF名词解释:词频(Term Frequency,TF) 指的是在一份给定的文件里,某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母,

2020-07-25 18:58:40 240

原创 NLP新闻文本分类之2数据读取

Task02-数据读取与数据分析数据读取数据分析句子长度分析新闻类别分布字符分布结论本次学习主要内容是:先用pandas读取数据,然后对数据进行简单的描述性统计。数据读取训练集数据共20w条左右,下载解压后的格式即为csv格式,因此可以直接用pandas进行数据读取。import pandas as pdtrain_df = pd.read_csv('train_set.csv', sep='\t') #因为训练集有20w条,数据太大,也可以只选择读取前100条:nrows=100train_d

2020-07-22 21:51:31 238

原创 NLP新闻文本分类之1零基础入门赛题解读

Task01-赛题理解赛题背景赛题数据解题思路赛题背景赛题名称:零基础入门NLP之新闻文本分类赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w

2020-07-21 20:34:24 80

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除