Datawhale | 自然语言处理（4）——中文文本挖掘预处理

最新推荐文章于 2024-07-19 06:44:11 发布

orient928

最新推荐文章于 2024-07-19 06:44:11 发布

阅读量873

点赞数

分类专栏： Datawhale | 自然语言处理

本文链接：https://blog.csdn.net/orient928/article/details/89289162

版权

本文介绍了中文文本挖掘的预处理步骤，包括词袋模型、停用词处理和TF-IDF模型。词袋模型忽略了上下文关系，仅考虑词频。停用词是常见但对查询结果无用的词语。TF-IDF是衡量词重要性的指标，结合词频和逆文档频率。预处理还包括中文分词和特征处理，常使用结巴分词库和scikit-learn的TfidfVectorizer。

摘要由CSDN通过智能技术生成

写在前面：

这两天看了下cs224N 和吴军博士的《数学之美》，算是对 NLP 有了一个初步的认识，这篇文章并不是完全按照助教给的框架来写的，其中也尝试了实际操作，但是过程中出现了很多意想不到的错误，由于还没有解决，所以这里就不粘代码实现的部分了，助教请见谅！

一. 概念介绍

1.词袋模型（Bag of Words）

词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。
词袋模型首先会进行分词，在分词之后，通过统计每个词在文本中出现的次数，我们就可以得到该文本基于词的特征，如果将各个文本样本的这些词与对应的词频放在一起（简单来说就是拿出一个向量，向量就是由文本中出现的所有词和该词出现的频率所组成），就是我们常说的向量化。向量化完毕后一般也会使用TF-IDF进行特征的权重修正，再将特征进行标准化。再进行一些其他的特征工程后，就可以将数据带入机器学习算法进行分类聚类了
词袋模型的三部曲：分词（tokenizing），统计修订词特征值（counting）与标准化（normalizing）
词袋模型有很大的局限性，因为它仅仅考虑了词频，没有考虑上下文的关系，因此会丢失一部分文本的语义。但是大多数时候，如果我们的目的是分类聚类，则词袋模型表现的很好
如果词汇表的特征太大，大到内存不够用，此时就

最低0.47元/天解锁文章

orient928

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Datawhale | 自然语言处理（4）——中文文本挖掘预处理

写在前面：这两天看了下cs224N 和吴军博士的《数学之美》，算是对 NLP 有了一个初步的认识，这篇文章并不是完全按照助教给的框架来写的，其中也尝试了实际操作，但是过程中出现了很多意想不到的错误，由于还没有解决，所以这里就不粘代码实现的部分了，助教请见谅！文章目录一. 概念介绍1.词袋模型（Bag of Words）2.停用词（Stop Words）3.TF-IDF模型3.1 词频（TF）...
复制链接

扫一扫

专栏目录