TF-IDF(Term Frequency-Inverse Document Frequency)算法是常用的一种文本关键词或者文本特征的提取方法。相比于单单考虑单词的出现频率(TF),TF-IDF引入了逆文档频率(IDF),使得我们提取的关键词更加有代表性,而代表性也是TF-IDF方法关注的焦点。
TF-IDF理论
其主要思想是:如果在一篇文章中一个词的出现频率高,并且语料库中其他文章包含这个词的概率小,那么这个词可以被选作关键词使用。
接下来,我们详细讲述其原理:
-
在一篇文章中出现的频率(Term Frequency)高的词应该比出现频率低的词更有代表性。
T F = n i ∑ n i TF = \dfrac{n_i}{\sum n_i} TF=∑nini
n i n_i ni:一篇文章中一个词出现的次数
∑ n i \sum n_i ∑n