热词
简单地理解热词就是某文档中出现频率高的且非无用的词语。
朴素的想法
文档由若干词(term)组成,那么很朴素的想法就可以认为文档中某个term出现的次数越多就越可能是高频热词。这样的统计策略就叫Term Frequency,即TF。
干扰项
- 标点符号,一般标点符号没有价值,去掉。
- 停词,停词没有特别的意义,一般也要去掉,比如“是”,“的”,”the”,”that”,”this”等。
词权重
现在可能还存在问题,假如某文档中多个term出现的次数相同,则不好判别他们之间哪个更重要。因为缺少词权重。此权重叫逆文档频率(IDF),某个term的权重可定为: