6.3排序式检索 tf-idf权重计算

最新推荐文章于 2022-01-13 15:28:12 发布

心灵排骨汤

最新推荐文章于 2022-01-13 15:28:12 发布

阅读量5.2k

点赞数 2

分类专栏：信息检索文章标签：程序人生信息检索自然语言处理

本文链接：https://blog.csdn.net/qq_45783383/article/details/121591877

版权

16 篇文章 3 订阅

订阅专栏

提示：
信息检索：文档评分-词项权重计算-向量空间模型
第三部分：tf-idf权重计算

tf-idf权重计算

在进行排序时，除了词项频率tf之外，我们通常还需要词项在整个文档集中的频率和评分。
原因，当词项A和词项B在文档1中tf相同时，但词项B在文档集中每个文档中都有，而词项A只存在于文档1中，那么A和B需要有一个重要性的排序。

罕见词项要比常见词项蕴含的信息要多很多，它出现的频率越低，那么出现它的文档就显得相关性更高。那么我们就希望给它更高的权重。
那么对于常见词而言，相对蕴含信息就相对偏少，给一个低的权重即可。

出现词项的文档数目
在这里插入图片描述

idf_t是反映信息量的一个指标。
用log₁₀(N/df_t)来限制N/df_t的作用

N=1000000
在这里插入图片描述

在这里插入图片描述

vs
文档集频率cf	t在整个文档集中出现的次数
文档频率df	包含t的文档数目

在这里插入图片描述

哪一个更适合查询？即赋予更高的权重？
通过上图，df(idf)的更适合做查询

在这里插入图片描述

关注

专栏目录