NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度

最新推荐文章于 2024-06-13 21:29:13 发布

乐七_

最新推荐文章于 2024-06-13 21:29:13 发布

阅读量1.5k

点赞数 1

分类专栏： nlp 文章标签： nlp

本文链接：https://blog.csdn.net/TimEcho/article/details/106150394

版权

nlp 专栏收录该内容

21 篇文章 3 订阅

订阅专栏

词的过滤：删除没有用的词，具体包括两类：

1、停用词过滤，对理解文本没意义的词，a\an
2、出现频率低的词过滤

过滤要考虑自己的应用场景：比如好、很好等词，在情感分析中这些词很重要，在有些地方是作为停用词的
一般是使用别人已经定义好的停用词库，然后进行自己的修改
在这里插入图片描述
低频词作用不大，还有可能是噪声，所以没必要考虑

stemming 英文需要标准化

词的标准化操作有两种：stemming，lemmazation
比如将went\go 转换为go
但是stemming不保证转换出的单词是一个有效的原型，
lemmazation会比stemming严格，转换出的单词必须是单词表存在的
在这里插入图片描述
Porter Stemmer
英文文本如何做stemming：https://tartarus.org/martin/PorterStemmer/java.txt

在这里插入图片描述
这种stemming的规则是要依靠语言学家的经验来确定的，程序员去把这种规则运用到实际

文本表示

1、词的表示：可以使用one-hot representation
词典中每个单词是有顺序的，每个单词都使用one-hot去表示
在这里插入图片描述
2、句子表示
1）Boolean representation
使用已经用分词工具分好的句子
按照词典中词的顺序，如果句子中出现这个单词，就1表示，否则0表示。最终句子向量维度与词典长度相同
注意：不管句子中一个单词出现几次，那个位置上只能是出现为1，否则为0
在这里插入图片描述
2）count based representation
考虑词频

上述文本表示的缺陷：下边第二个句子中，denied出现一次，he出现两次，但是denied在这个句子中是最重要的
而he并不是很重要，所以只根据词频来判断单词的重要性太片面
在这里插入图片描述

tf-idf表示方法解决文本表示缺陷

tdidf几乎所有文本分析，分类任务最为常见的，面试也常考
tf指一个词在当前文档出现的频数，idf是在考虑这个单词的重要性，如果它在很多文章都出现了，那么它的重要性不高
相反，如果w在一个文档出现，那么N/Nw的值是很大的，也就是重要性大。加log是避免这个比值过大
在这里插入图片描述

tfidf实例

在这里插入图片描述
首先要建立词典，
然后开始计算每个句子的tfidf向量
虽然现在深度学习火，很多人希望用词向量，句子向量来表达句子，但是tfidf还是目前最流行，效果好的这么一种文本表示法
上边基于boolean，基于count，基于tfidf的文本表示法，都归为one-hot representation