lucene score explain 评分解释说明

通过Searcher.explain(Query query, int doc)方法可以查看某个文档的得分的具体构成。

[b]在Lucene中score简单说是由 tf * idf * boost * lengthNorm计算得出的。 [/b]
[i](复杂的请看相关文档)。[/i]
tf:是查询的词在文档中出现的次数的平方根
idf:表示反转文档频率,观察了一下所有的文档都一样,所以那就没什么用处,不会起什么决定作用。
boost:激励因子,可以通过setBoost方法设置,需要说明的通过field和doc都可以设置,所设置的值会同时起作用
lengthNorm:是由搜索的field的长度决定了,越长文档的分值越低。


具体说明:

用IndexSearch.explain(query,docId)可以查看score的评分信息,如当我们用"美女"在description这个field里面搜索时,信息如下:

[quote]
1.446873 = (MATCH) fieldWeight(description:美女 in 5134), product of:
1.0 = tf(termFreq(description:美女)=1)
5.787492 = idf(docFreq=599, maxDocs=72000)
0.25 = fieldNorm(field=description, doc=5134)
[/quote]
第一行表示总得分:document(docId=5134)的score为1.446873,它由下面的三个值相乘得来:1.446873 = 1.0 * 5.787492 × 0.25

第二行表示项频率:在document(docId=5134)description这个filed中共出现了1个"美女"关键词,1.0是由根号1算出来的。
第三行表示反转文档频率:含有"美女"关键词的document共有599个,总的document有72000,5.787492是由
ln(72000/(599+ 1) )+ 1.0 =ln(72000) -ln(600) +1 = 5.787492
第四行表示域的加权长度因子:fieldNorm = fieldboost / sqrt(fieldlength),其中fieldlength为keywords这个field的token(分词)数量
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值