BM25公式

 



 

其中qdC分别表示查询、文档和文档集合,|q||d|分别是查询q和文档d的长度,avdl是文档集合中文档的平均长度。w表示特征词项(Term)c(w,d)c(w,q)分别表示w出现在dq中的个数,N是文档集合中的文档总数,df(w)表示出现w的文档个数。p(w|C)表示C中出现w的概率。公式中的k1,k3,b,都是人工经验调节的参数。

 

BM25模型是一个经验启发式模型,存在着巨大的鲁棒性问题,具体表现在:

 

(1) 这些模型有需要人工经验调节的参数。同一模型在面对同一查询、同一文档集的情况下,不同的参数其取值结果性能相差较大;

(2) 如果参数不变,同一模型对同一查询,在不同的文档集上结果也会性能相差很大;

(3) 同一模型对不同查询,同一组参数,同一文档集合上的结果性能也会相差很大。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值