推荐系统实践-第三章-推荐系统冷启动问题

附上本章的一个简单的思维导图,以及一些没有具体解释的概念的解释。

TF-IDF

TF-IDF,全称为“词频-逆文档频率”(Term Frequency-Inverse Document Frequency),是一种在文本挖掘和信息检索中常用的数据统计方法,用以评估一个词语在一个文档集或一个语料库中的重要程度。它的主要思想是:如果某个词语在一篇文章中出现频率(TF)高,并且在其他文章中出现频率(IDF)低,那么这个词语在这篇文章中就可能具有很好的区分度,对文章的内容有重要影响。

TF-IDF由两部分组成:

  1. 词频(TF):词频是指某个关键词在整篇文章中出现的次数。
  2. 逆文档频率(IDF):逆文档频率是指文档集中多少文档包含这个词语。它是文档数量除以包含该词语的文档数量,然后取对数得到的值。

TF-IDF算法将这两个值相乘,得到一个词在文档中的重要程度。这个数值越大,表示词在文档中越重要。TF-IDF是一种常见的用于文本处理的权重计算方法,广泛应用于搜索引擎的关键词权重计算、文本挖掘、用户兴趣建模等领域。

为什么IDF(逆文档频率)的计算公式是文档总数除以包含该词语的文档数量:主要是为了衡量一个词语在整个文档集中的独特性或区分度。核心理念是:

  • 如果一个词语在很多文档中都出现,那么它可能不是一个很好的区分特定文档的关键词(例如“的”,“是”这样的常用词)。因此,这个词的IDF值应该较低,表示它对区分文档内容的作用较小。
  • 相反,如果一个词语只在少数文档中出现,那么它可能对这些文档具有很高的区分度和特殊性。这样的词语应该有一个较高的IDF值。

通过这种方式,IDF提供了一种衡量词语在整个文档集中重要性的方法,有助于过滤掉常见但意义不大的词语,同时强调那些有助于区分文档的特殊词语。

例子

文档1: “The cat sat on the mat.”
文档2: “The dog sat on the log.”
我们要计算词语 “cat” 在文档1中的TF-IDF值。

计算TF(词频):

“cat” 在文档1中出现了1次。
文档1总词数是6。
因此,TF = 1/6。
计算IDF(逆文档频率):

假设我们的文档集只包含这两篇文档。
“cat” 只在文档1中出现,没有在文档2中出现。
因此,包含 “cat” 的文档数是1。
IDF = log(文档总数 / 包含“cat”的文档数) = log(2/1)。
计算TF-IDF:
TF-IDF = TF * IDF。

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值