- 博客(1)
- 收藏
- 关注
原创 文本预处理挖掘之TF-IDF附使用互信息进行特征挑选的过程(任务二)
文本数据预处理之TF-IDF 我们知道词频矩阵是将n-gram词的频率转成向量(频数放置相应维度),但我们可以很明显的发现问题,一些在很多文本中频繁出现的常用词(有些时候我们会将其当做停用词删掉)其权重会比较高,但是其实因为它几乎在每句话都会出现,故而其重要性也许并不如词频矩阵所表现的那样。 TF-IDF概述(词频-逆文本频率) TF也就是我们所说的词频,而IDF指的是逆文本频率,IDF反映了一个...
2019-03-06 22:13:14 1074
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人