基于词相关性的排序算法

本文介绍了基于词相关性的排序算法,包括BIM(二元独立模型)、tf-idf以及BM25和BM25F。BIM通过贝叶斯公式计算文档与查询的相关性;tf-idf考虑词频影响;BM25改进了词频的处理,BM25F则针对文档的不同字段加权求和。
摘要由CSDN通过智能技术生成

基于词相关性的排序算法

BIM(binary independence model ,二元独立模型)

和朴素贝叶斯类似,假设同一篇文档里出现的词之间没有关联,互相独立。
Query 包含了若干词项 t t t。对于这个 query ,文档 doc 用一个向量表示 d = ( x 1 , x 2 , … , x n ) d=(x_1,x_2,…,x_n) d=(x1,x2,,xn),词项 t t t出现则 x t = 1 x_t=1 xt=1,否则 x t = 0 x_t=0 xt=0
那么 doc 与 query 相关的概率为 P ( R = 1 ∣ d ) P(R=1|d) P(R=1d)。由贝叶斯公式可得:
P ( R = 1 ∣ d ) = P ( d ∣ R = 1 ) P ( R = 1 ) P ( d ) P(R=1|d)=\frac{P(d|R=1)P(R=1)}{P(d)} P(R=1d)=P(d)P(dR=1)P(R=1)

定义 doc 对于 query 的相关性的优势率为:
O ( R ∣ d o c ) = P ( R = 1 ∣ d ) P ( R = 0 ∣ d ) = P ( d ∣ R = 1 ) P ( d ∣ R = 0 ) P ( R = 1 ) P ( R = 0 ) O(R|doc)=\frac{P(R=1|d)}{P(R=0|d)}=\frac{P(d|R=1)}{P(d|R=0)}\frac{P(R=1)}{P(R=0)} O(Rdoc)=P(R=0d)P(R=1d)=P(dR=0)P(dR=1)P(R=0)P(R=1)

显然, P ( R = 1 ) P ( R = 0 ) \frac{P(R=1)}{P(R=0)} P(R=0)P(R=1)为常数,对于 O O O的大小关系不产生影响,再由独立性假设可知
P ( d ∣ R = 1 ) P ( d ∣ R = 0 ) = ∏ i P ( x i ∣ R = 1 ) ∏ i P ( x i ∣ R = 0 ) \frac{P(d|R=1)}{P(d|R=0)}=\frac{\prod_iP(x_i|R=1)}{\prod_iP(x_i|R=0)} P(dR=0)P(dR=1)=iP(xiR=0)iP(x

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值