Lucene 评分机制

最新推荐文章于 2023-10-20 16:36:33 发布

qiruiduni

最新推荐文章于 2023-10-20 16:36:33 发布

阅读量660

点赞数

分类专栏： lucene 文章标签： lucene

本文链接：https://blog.csdn.net/qiruiduni/article/details/37736775

版权

2 篇文章 0 订阅

订阅专栏

在检索文档时，lucene会计算文档与查询语句之间的相似程度，以打分的形式来表示，分值越高，相似度和匹配度越高。计算分值的公式如下：

score(q,d) = coord(q,d) · queryNorm(q) ·	∑	( tf(t in d) · idf(t)² · boost(t.field in d) · lengthNorm(t.field in d) )
	t in q

其中，t：term，d：document，q：query。这个公式的一些含义如下表：

评分因子	描述
tf(t in d)	即词频，文档(d)中出现词(t)的频率，词在文档中出现的次数越多，得分越高。
idf(t)	即反文档频率，词在文档库中出现的频率的反转，一个词出现的越少，得分越高。
boost(t.field in d)	文档和域的加权，在索引期间设置。
lengthNorm(t.field in d)	表示域中包含的项数量，更短的域（或更少的语汇单元）能获得更大的加权。
coord(q, d)	协调因子，基于文档中包含查询的项个数。举个例来说，查询“lucene”和"Apache"，同时出现两个Term的肯定比只出现一个lucene或者Apache的分值高。
queryNorm(q)	多个查询器权重的平方和。

计算这个评分涉及到几个核心的类/接口：Similarity、Query、Weight、Scorer、Searcher，由它们或其子类来完成评分的计算。先来看下它们的类图：

搜索中，评分的过程：

Query、Weight、Scorer 三都关系十分密切，尤其是 Query 和 Weight。Weight 是计算查询权重和创建 Scorer 的。Query 为了可以重用把内部的特征抽象为 Weight，由子类去完成一些相关评分的计算。

任何 Searcher 依赖的状态都存储在 Weight 实现中，而不是在Query 中，这样可以重用 Query。

Weight 的生命周期（被使用）：

Weight 由顶层的 Query 创建。Query.createWeight(Searcher)，创建的 Weight 给 Searcher 去使用。
当用 Similarity.queryNorm(float) 来计算查询标准化因子（query normalization）的时候，Weight.sumOfSquaredWeights() 会被调用。
查询标准化因子（query normalization）会传给 Weight.normalize(float)计算，这个时候权重(weighting)计算完成。
创建一个 Scorer。

自定义评分的计算

可以实现一个 Similarity 换掉默认的。它仅限于 Scorer、Weight 计算好的因子值再加工。要想对评分有更强的控制力，可以实现一套 Query、Weight、Scorer。

Query 子类实现的方法：

createWeight(Searcher searcher) -- Weight 是 Query 内部代表，所以每个 Query 都必实现一个 Weight，此方法就是生成一个Query对应的Weight对象。
rewrite(IndexReader reader) -- 重写查询为原始的查询，原始的查询有：TermQuery，BooleanQuery……

Weight 接口方法：

Weight#getQuery() -- 指出代表 Weight 的 Query。
Weight#getValue() -- Query 的权重，例如：TermQuery.TermWeight 的 value = idf^2 * boost * queryNorm
Weight#sumOfSquaredWeights() -- 各查询项的平方和，如，TermWeight 的 = (idf * boost)^2
Weight#normalize(float) -- 决定查询标准化的因子，查询标准化值可以在不同 Query 比较 score
Weight#scorer(IndexReader) -- 创建 Query 对应的评分器 Scorer，它的责任是给 Query 匹配到的文档评分。
Weight#explain(IndexReader, int) -- 给指定的文档详细解说评分值是怎么得来了。

Scorer 子类实现的方法：

Scorer#next() -- 预取匹配到的下一文档，有才返回 true。
Scorer#doc() -- 返回当前匹配到的文档id，它必须 next() 调用后才有效。
Scorer#score() -- 返回当前文档的评分，此值可以由应用程序以任何适当的方式给出，如 TermScorer 返回 tf * Weight.getValue() * fieldNorm
Scorer#skipTo(int) -- 跳到大于或等于 int 的匹配文档上。很多情况下，在结果集中 skipTo 比较循环更加快速高效。
Scorer#explain(int) -- 给出评分产生的细节。

要实现一套 Query、Weight、Scorer，最好还是看下 TermQuery、TermWeight、TermScorer。

当 Lucene 中没有想要的查询时（包括不同的评分细节），自定义Query 可能帮得上忙。