简介
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
- 词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率;
- 反文档频率(inverse document frequency,IDF),即某一个给定词语在文档集合中出现的次数与文档总数的商;
理论
如果某个词或短语在一篇文章中出现的频率高,并且在文档集合中出现频率低,则认为此词或者短语具有很好的类别区分能力。
适用场合
文本分类、基于向量空间模型的文本分类方法