![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 87
记录一下学习自然语言处理(偏问答)的过程
lambda99
这个作者很懒,什么都没留下…
展开
-
(NLP)文本预处理
文本预处理的基本步骤包括以下几个:以今日头条中文新闻(短文本)分类数据集为例。其包含38万条短新闻,包含于15个类中。头条新闻数据集下载数据格式如下所示:每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词。下面读取数据,并且切除ID,分类code,分类名称,新闻关键字,只保留标题文本。结果如下:分词在语言学中,词是具备独立意义的最小单位。由合适的词进行排列组合形成有意义的句子。对文本信息进行处理的第一步就是原创 2022-07-11 21:35:30 · 1585 阅读 · 0 评论 -
(NLP)序列模型
序列数据的定义是一组有先后次序的数据。显然文本也是一种序列模型,一段文字会因为单词的位置发生变化而使语句意思完全改变甚至变成一段没有任何意义的单词组合,例如:可以看到前三句话都是一个有意义的句子,但是所表述的意思不相同,但最后一句已经没有意义了。由有关联的变量组合在一起构成系统,且这些变量随时间变化而变化。这样的系统称为动力学系统。动力其实就是一种映射。处理序列数据需要用到统计工具,深度神经网络也可以进行处理。以股票价格预测为例。其中,xtx_txt表示在时间步t∈Z+t\in{Z^+}t∈Z+时候的价格原创 2022-07-10 22:57:54 · 644 阅读 · 0 评论