定义:
TF-IDF是一种用于资讯检索与资讯探测的常用加权技术。TF-IDF是一种统计方法,用以评估一个字或者词语对于一个文件集合或者语料库中的一份文件的重要程度。其实它的原理也很容易理解的,一个词语的重要性随着它在文件中出现的次数增加而增加,但会同时随着它在语料库中出现的频率成反比下降。TF-IDF加权应用在搜索引擎、文本聚类中。除了TF-IDF之外,搜索引擎还会使用链接分析的方法对结果进行排序。
例子:
例子好,简单易懂,比讲述计算方法有效多了。其中TF=term frequency,记为该单词出现的次数除以该文档的单词的数目。IDF,记为该单词在文档中出现的概率的倒数的对数。然后对这两个数进行相乘。
假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。
优化:
1、Roberto Basils 提出了TF/ IWF/ IWF 方法,权重计算公式如下:w ( wi , d) = T F( wi, d) * ID F( wi )= N ( wid) * log ( N ( wi) / N) 2其中N ( wi ) 是文档中出现wi 的次数, N 是文档中所有词出现的次数之和, N ( wid ) 文本中出现wi 的次数,实现结果表明比TF/IDF 算法有很大提高。
参考文献:
TF-IDF统计原理介绍 http://blog.csdn.net/xceman1997/article/details/8107196
主题词提取:http://blog.csdn.net/uestcfrog/article/details/6913652