自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 跟我一起零基础入门NLP(实战项目 : 新闻文本分类)4基于fastText的文本分类

基础知识 概念: FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。 所以FastText是一个三层的神经网络,输入层、隐含层和输出层。 与TF-IDF的对比 转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。 FastText的 实践 函数说明,参数讲解 改进 十折验证 ...

2020-07-28 00:37:09 198

原创 跟我一起零基础入门NLP(实战项目 : 新闻文本分类)3基于机器学习的文本分类

Task3 基于机器学习的文本分类 学习目标 学会TF-IDF的原理和使用 使用sklearn的机器学习模型完成文本分类 文本表示方法 文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法:将不定长的文本转换到定长的空间内。 One-hot 将每一个单词使用一个离散的向量表示:将每个字/词编码一个索引,然后根据索引进行赋值。 e.g., 句子1:我 爱 北 京 天 安 门 句子2:我 喜 欢 上 海 首先对所有句子的字进行索引: { ‘我’: 1, ‘爱’: 2,

2020-07-27 00:35:35 406

原创 跟我一起零基础入门NLP(实战项目 : 新闻文本分类)数据读取与数据扩增

数据读取 数据分析 句子长度分析 新闻类别分布 字符分布统计 结论 通过上述分析我们可以得出以下结论: 赛题中每个新闻包含的字符个数平均为1000个,还有一些新闻字符较长; 赛题中新闻类别分布不均匀,科技类新闻样本量接近4w,星座类新闻样本量不到1k; 赛题总共包括7000-8000个字符; 通过数据分析,我们还可以得出以下结论: 每个新闻平均字符个数较多,可能需要截断; 由于类别不均衡,会严重影响模型的精度; 作业 1、假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少

2020-07-23 10:49:55 121

原创 跟我一起零基础入门NLP(实战项目 : 新闻文本分类)1.赛题理解

本文是零基础入门NLP - 新闻文本分类的第一篇作业,定位是对赛题的精简和解题思路开拓。 读题 任务 新闻文本分类。 数据解析 赛题数据为新闻文本,并按照字符级别进行匿名处理。 数据类别为14种:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。 数据量:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。 模型评价 评价标准为类别F1−scoreF1-scoreF1−score的均值,可以用sklearn.metrics.f1_score

2020-07-21 22:52:19 420

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除