lucene检索得分模型

本文介绍了Lucene的检索得分模型,结合布尔模型和向量空间模型,详细讲解了评分公式,包括VSM评分、coord、queryNorm、tf、idf、t.getBoost和norm等要素,并通过实例解释了各个部分的作用和计算过程。
摘要由CSDN通过智能技术生成

得分机制和思想

对于搜索,一般包括从库里通过query搜索出docs并排序。
本质上是一个排名问题,检索的话比较简单,可以通过倒排文档的思路,直接通过词找到包括该词的文档(最原始的思路)。
lucene也是利用了两类模型:布尔模型和向量空间模型; [布尔模型]{ http://blog.csdn.net/iterate7/article/details/77206613}负责检索到数据; 向量空间模型负责得分排序。
所谓的向量空间模型,可以理解为:query和doc都会映射为一个vector,通常情况下是term vectors;而权重则选择tf-idf,在同一个特征空间进行计算排序。

Lucene combines Boolean model (BM) of Information Retrieval with Vector Space Model (VSM) of Information Retrieval - documents “approved” by BM are scored by VSM.

评分公式

VSM评分公式

cosinesimilarity=V(q)V(d)|V(q)||V(d)| c o s i n e − s i m i l a r i t y = V ( q ) ⋅ V ( d ) | V ( q ) | | V ( d ) |

lucene概念评分公式

score(q,d)=coordfactor(q,d)queryboost(q)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值