提示:
信息检索:文档评分-词项权重计算-向量空间模型
第三部分:tf-idf权重计算
tf-idf权重计算
在进行排序时,除了词项频率tf之外,我们通常还需要词项在整个文档集中的频率和评分。
原因,当词项A和词项B在文档1中tf相同时,但词项B在文档集中每个文档中都有,而词项A只存在于文档1中,那么A和B需要有一个重要性的排序。
权重
罕见词项要比常见词项蕴含的信息要多很多,它出现的频率越低,那么出现它的文档就显得相关性更高。那么我们就希望给它更高的权重。
那么对于常见词而言,相对蕴含信息就相对偏少,给一个低的权重即可。
文档频率df
出现词项的文档数目
idft是反映信息量的一个指标。
用log10(N/dft)来限制N/dft的作用
idf计算举例
N=1000000
cf VS df
vs | |
---|---|
文档集频率cf | t在整个文档集中出现的次数 |
文档频率df | 包含t的文档数目 |
哪一个更适合查询?即赋予更高的权重?
通过上图,df(idf)的更适合做查询
※tf-idf权重