文本预处理挖掘之TF-IDF附使用互信息进行特征挑选的过程(任务二)
文本数据预处理之TF-IDF
我们知道词频矩阵是将n-gram词的频率转成向量(频数放置相应维度),但我们可以很明显的发现问题,一些在很多文本中频繁出现的常用词(有些时候我们会将其当做停用词删掉)其权重会比较高,但是其实因为它几乎在每句话都会出现,故而其重要性也许并不如词频矩阵所表现的那样。
TF-IDF概述(词频-逆文本频率)
TF也就是我们所说的词频,而IDF指的是逆文本频率,IDF反映了一个...
原创
2019-03-06 22:13:14 ·
1061 阅读 ·
0 评论