这一篇笔记中我们记录一些单个词的查询,下一篇中我们会详细分析短语的查询。
基本查询
TermQuery
TermQuery是Lucene查询中最基本的一种原子查询,一个TermQuery只查一个Term(一个Field中的一个词)
查询时,Lucene在索引里检索出这个词的信息,以及这个词对应的所有的文档Id。
修饰
FilteredQuery
FilteredQuery是在已经定义好的query上附加了过滤器;但是过滤器不影响文档的打分,打分的时候,FilterQuery只考虑query的部分,不考虑filter的部分
ConstantScoreQuery
包装查询器或者Filter,让它们返回的结果的得分一致等于设置的查询权值。这样可以消除某种查询对打分的影响。
基本查询的组合
BooleanQuery
用布尔表达式组合多个基本查询。加入每个条件时,可以要求是否满足每个查询。
严格来说这个不是“与或非”层次化的布尔表达式。这里每个条件都通过BooleanClause.Occur属性相互连接。Occur属性有三种:
MUST 该条件必须满足
WUSTNOT该条件决不能满足
SHOULD 该条件可以满足得分计算
BooleanQuery 是比较特殊的查询,只有它与计算分数的公式关系较大。它的分数中用到了coord()方法(计算匹配率)
如果设置为计算匹配率(new时默认参数),那么BooleanQuery输出所有子查询分数之和乘以匹配率的结果
否则(new时传入参数true),只计算匹配上的子查询分数的和。
DisjunctionMaxQuery
组合多个子查询,每篇文档的得分为该文档在所有子查询中的最大得分。
这个功能用于避免BooleanQuery的“或”条件把分数累加得太高。
模糊查询与多词查询
Lucene中没有模糊索引。所有模糊查询都是靠枚举索引词表中满足条件的词实现的。
所有的MultiTermQuery最终都会被改写为一个组合了多个TermQuery的BooleanQuery,且忽略匹配率
我们并不需要担心查两遍索引效率问题,在查找出Term构建Query时,已经提前读出了Term的idf等信息。
NumericRangeQuery
NumericRangeQuery 是数值范围查询。只能用在数值字段上,数值字段把数值转为byte串存储检索,因此最佳情况下应用2进制步长搜索。
TermRangeQuery
TermRangeQuery是范围查询。会查询从lowerTerm(包含)到upperTerm(包含)的一系列(按字符编码从低位递增的)Term,用在文本字段上。
TermRangeQuery用于保存数字的文本字段,作1到2位的模糊查询或许还不错,但是用于保存文本的文本字段可就不是那么有效了。很少有沿着字符编码(还是Unicode顺序)往下找的需求。这时候就要用一系列文本字段模糊查询了
PrefixQuery
前缀匹配查询
FuzzyQuery
基于编辑距离的模糊匹配查询
基于自动机枚举的模糊查询
从Lucene的实现来看,基于自动机做枚举的模糊匹配查询有4种:NumericRangeQuery FuzzyQuery RegexpQuery WildCardQuery,但这里只说后两种,因为更像我们通常所知道的自动机。
RegexpQuery
WildCardQuery