《推荐系统实践》阅读笔记四 TF-IDF

定义:

           TF-IDF是一种用于资讯检索与资讯探测的常用加权技术。TF-IDF是一种统计方法,用以评估一个字或者词语对于一个文件集合或者语料库中的一份文件的重要程度。其实它的原理也很容易理解的,一个词语的重要性随着它在文件中出现的次数增加而增加,但会同时随着它在语料库中出现的频率成反比下降。TF-IDF加权应用在搜索引擎、文本聚类中。除了TF-IDF之外,搜索引擎还会使用链接分析的方法对结果进行排序。


例子:

       例子好,简单易懂,比讲述计算方法有效多了。其中TF=term frequency,记为该单词出现的次数除以该文档的单词的数目。IDF,记为该单词在文档中出现的概率的倒数的对数。然后对这两个数进行相乘。

       假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。


优化:

1、Roberto Basils 提出了TF/ IWF/ IWF 方法,权重计算公式如下:w ( w, d) = T F( wi, d) * ID F( wi )= N ( wid) * log ( N ( wi) / N) 2其中N ( wi ) 是文档中出现wi 的次数, N 是文档中所有词出现的次数之和, N ( wid ) 文本中出现wi 的次数,实现结果表明比TF/IDF 算法有很大提高。



参考文献:

TF-IDF统计原理介绍 http://blog.csdn.net/xceman1997/article/details/8107196

TF-IDF百度百科:http://baike.baidu.com/link?url=fO45-1T45IlwbmObM-BowGc-zWhAT7lWpFaCUdXMFIjXyZBivX-0MZr559wXU9j5vaI9ZxwoULcvd_F5v5djaK

主题词提取:http://blog.csdn.net/uestcfrog/article/details/6913652

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值