算法简介
先简单解释一下,TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
TF是词频,表示词条或关键字在文本出现的频率,计算方法如下:
其中分子为某一文件中词条 a 出现的频次为 k ,分母为该文件中 M 个词条各自出现的次数的总和。
IDF是逆向文件频率,由总文件数目 D 除以包含该词条文件的数目d,再对结果取对数,即:
其中,分母加1是为了避免分母为0的特殊情况。
最后,衡量词条n在语料库中的重要程度为:
由上述公式可知,某一特定文件内的高词条频率,以及该词条在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
应用场景
1)搜索引擎;
2)关键词提取;
3)文本相似性;
4)文本摘要。