6.3排序式检索 tf-idf权重计算

提示:
信息检索:文档评分-词项权重计算-向量空间模型
 第三部分:tf-idf权重计算


tf-idf权重计算

在进行排序时,除了词项频率tf之外,我们通常还需要词项在整个文档集中的频率和评分。
原因,当词项A和词项B在文档1中tf相同时,但词项B在文档集中每个文档中都有,而词项A只存在于文档1中,那么A和B需要有一个重要性的排序。

权重

罕见词项要比常见词项蕴含的信息要多很多,它出现的频率越低,那么出现它的文档就显得相关性更高。那么我们就希望给它更高的权重。
那么对于常见词而言,相对蕴含信息就相对偏少,给一个低的权重即可。

文档频率df

出现词项的文档数目
在这里插入图片描述
在这里插入图片描述

idft是反映信息量的一个指标。
用log10(N/dft)来限制N/dft的作用
影响

idf计算举例

N=1000000
在这里插入图片描述

cf VS df

在这里插入图片描述

vs
文档集频率cft在整个文档集中出现的次数
文档频率df包含t的文档数目

在这里插入图片描述

哪一个更适合查询?即赋予更高的权重?
通过上图,df(idf)的更适合做查询

※tf-idf权重

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心灵排骨汤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值