lucence 文档评分公式

1.简介

分值计算方式为查询语句query中每个项term与文档doc的评分之和。公式表示见1-1。

score(query,doc)=termqueryscore(term,doc)(1-1)

2.term与doc的评分

2.1 基于tf-idf

score(t,d)=tf(t,d)idf(t)2boost(t,d)lengthNorm(t,d)coord(q,d)queryNorm(q)(2-1)
符号说明备注
tterm/
ddoc/
qterm 所在query/
tf(t,d)term在doc中的频率/
idf(t) 1termdoc /
boost(t,d)域和文档的加权在索引期间设置。可以用该方法对某个域或文档进行静态单独加权
lengthNorm(t,d)域的归一化值域的归一化(normalization)值,更短的域获得更大的加权。该值在索引期间计算,并保存在索引norm中。
coord(q,d)协调因子(Coordination factor)基于doc与query的term的交集的数量。该因子会对包含更多搜索项的文档进行类似AND 的加权。
queryNorm(q)查询的归一化值每个term权重的平方和

2.2 基于BM25

score(t,d)=idf(t)(k1+1)tf(t,d)k1((1b)+bdlavgdl)+tf(t,d)(2-2)

k1,b为调节因子,根据经验设置,一般取 k1=2,b=0.75,dl为文档长度,avgdl为所有文档的平均长度。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值