calling_pulse-CSDN博客

原创跟我一起零基础入门NLP（实战项目：新闻文本分类）4基于fastText的文本分类

基础知识概念：FastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。所以FastText是一个三层的神经网络，输入层、隐含层和输出层。与TF-IDF的对比转换得到的向量维度很高，需要较长的训练实践；没有考虑单词与单词之间的关系，只是进行了统计。FastText的实践函数说明，参数讲解改进十折验证...

2020-07-28 00:37:09 203

原创跟我一起零基础入门NLP（实战项目：新闻文本分类）3基于机器学习的文本分类

Task3 基于机器学习的文本分类学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类文本表示方法文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入（Word Embedding）方法：将不定长的文本转换到定长的空间内。One-hot将每一个单词使用一个离散的向量表示：将每个字/词编码一个索引，然后根据索引进行赋值。e.g.,句子1：我爱北京天安门句子2：我喜欢上海首先对所有句子的字进行索引：{ ‘我’: 1, ‘爱’: 2,

2020-07-27 00:35:35 413

原创跟我一起零基础入门NLP（实战项目：新闻文本分类）数据读取与数据扩增

数据读取数据分析句子长度分析新闻类别分布字符分布统计结论通过上述分析我们可以得出以下结论：赛题中每个新闻包含的字符个数平均为1000个，还有一些新闻字符较长；赛题中新闻类别分布不均匀，科技类新闻样本量接近4w，星座类新闻样本量不到1k；赛题总共包括7000-8000个字符；通过数据分析，我们还可以得出以下结论：每个新闻平均字符个数较多，可能需要截断；由于类别不均衡，会严重影响模型的精度；作业1、假设字符3750，字符900和字符648是句子的标点符号，请分析赛题每篇新闻平均由多少

2020-07-23 10:49:55 129

原创跟我一起零基础入门NLP（实战项目：新闻文本分类）1.赛题理解

本文是零基础入门NLP - 新闻文本分类的第一篇作业，定位是对赛题的精简和解题思路开拓。读题任务新闻文本分类。数据解析赛题数据为新闻文本，并按照字符级别进行匿名处理。数据类别为14种：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。数据量：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。模型评价评价标准为类别F1−scoreF1-scoreF1−score的均值，可以用sklearn.metrics.f1_score

2020-07-21 22:52:19 430

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 跟我一起零基础入门NLP（实战项目 ： 新闻文本分类）4基于fastText的文本分类

原创 跟我一起零基础入门NLP（实战项目 ： 新闻文本分类）3基于机器学习的文本分类

原创 跟我一起零基础入门NLP（实战项目 ： 新闻文本分类）数据读取与数据扩增

原创 跟我一起零基础入门NLP（实战项目 ： 新闻文本分类）1.赛题理解

空空如也

空空如也

原创跟我一起零基础入门NLP（实战项目：新闻文本分类）4基于fastText的文本分类

原创跟我一起零基础入门NLP（实战项目：新闻文本分类）3基于机器学习的文本分类

原创跟我一起零基础入门NLP（实战项目：新闻文本分类）数据读取与数据扩增

原创跟我一起零基础入门NLP（实战项目：新闻文本分类）1.赛题理解