文本相似度(tf-idf 和 bm25的算法讲解)

1.关于tf-idf:

(使用tf-idf和向量空间模型)

TF: 文档 j 中的关键词 i 的归一化词频值

描述某一词在一篇文档中出现的频繁程度。

(为了阻止更长的文档得到更高的相关度权值,必须进行文档长度的某种归一化

  • TF=freq(i,j) / maxOthers(i,j)      ###(maxxOthers = max(freq(z,j)) 

IDF : 逆文档频率。

降低所有文档中几乎都会出现的关键词的权重。(例如的,了等)

  • IDF = log(N /n(i))   ###N 为所有可能推荐文档的数量,n(i)为N中关键词 i 出现过得文档的数量。

TF-IDF权值 = TF*IDF


2.关于BM25:(可插拔的相似度算法)

BM25源于概率相关模型,而非向量空间模型

BM25同样使用词频,逆文档频率以及字段长度归一化,但是每个因子的定义都有细微差别

(###TF-IDF没有考虑词频上限的问题,因为高频停用词已经被移除了)

(###BM25 有一个上限,文档里出现5-10次的词会比那些只出现一两次的对相关度有显著影响),参见词频饱和度图:


字段长度的归一化:

字段某个词的频率所带来的重要性会被这个字段长度抵消,但是在实际的评分函数中会将所有字段以同等方式对待,认为所有较短的title 比较长的body 字段更重要。

BM25 当然也认为较短字段应该有更多的权重,但是它会分别考虑每个字段内容的平均长度,这样就能区分短 title 字段和  title 字段。

在 

  • 6
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值