TermRangeQuery源码解析-CSDN博客

简单介绍下在较早版本的 Lucene 中对一定范围内的查询RanageQuery 。该Query 继承于 MulitTermQuery，在重写（rewrite ）Query 树的时候将会遵从一个原则：

根据起始区间值获取term, 然后遍历，根据满足条件的term 的数目来决定重写Query 的类型

如下代码所示：

（图一）具体见M ultiTermQuery.ConstantScoreAutoRewrite.rewrite() 方法

两种方式区别：

方式一：如果区间范围较大，获取terms 较多则采取Filter 过滤的方式遍历以start 开始的term ，获取[start,end] 的范围内的 TermEnum 从而取出docIDSet 。

方式二：如果区间范围不大，获取terms 不多，将区间Query 分解成多个termQuery 独立查询，然后根据BooleanQuery 来合并docId

缺点：

方式一：只支持字符串形式的范围查询，区间满足的term 数据越多，查询性能越差。

方式二：会构造太多termQuery 很可能造成 TooManyClause 异常，而且获取结果再合并将极大影响性能。

因为方式二其实现和普通BooleanQuery --> termQuery 查询方式一致，而本文主要阐述Range 查询，所以将不会方式二实现原理。

OK，那我们看看TermRangeQuery如何实现查询的，我们知道重写Query树后，接下来就是生成weight 树，从图一中可以看到方式一中重写的RangeQuey 被包装成 ConstantScoreQuery(newMultiTermQueryWrapperFilter(query)); 那么从下面的代码实现结构可以看到生成的 weight：

ConstantScoreQuery . createWeight()

|-- new ConstantScoreQuery.ConstantWeight(searcher);

生成 Weight 树后， weight 树将负责 Scorer 树的生成，如下代码实现结构所示 :

ConstantWeight. Scorer()

|-- new ConstantScorer ( similarity , reader, this );

|-- DocIdSet docIdSet = MultiTermQueryWrapperFilter .getDocIdSet(reader) ;

|-- DocIdSetIterator iter = docIdSet.iterator();

|-- docIdSetIterator = iter;

Query 树 ->weight 树 ->Scorer 树生成后，将开始打分并收集 docId 的过程。如下所示：

Scorer scorer = weight.scorer();

|-- scorer.score(collector);//scorer= ConstantScorer

整个 score 过程是遍历直到取出的值 == NO_MORE_DOCS 。见如下代码所示：