Lucene 5.5 学习笔记（六）Lucene中的各种Query（上）

最新推荐文章于 2020-06-16 06:05:52 发布

chujia2349

最新推荐文章于 2020-06-16 06:05:52 发布

阅读量189

点赞数

原文链接：https://my.oschina.net/u/514122/blog/757959

版权

这一篇笔记中我们记录一些单个词的查询，下一篇中我们会详细分析短语的查询。

基本查询

TermQuery
TermQuery是Lucene查询中最基本的一种原子查询，一个TermQuery只查一个Term（一个Field中的一个词）

查询时，Lucene在索引里检索出这个词的信息，以及这个词对应的所有的文档Id。

修饰
FilteredQuery
FilteredQuery是在已经定义好的query上附加了过滤器；但是过滤器不影响文档的打分，打分的时候，FilterQuery只考虑query的部分，不考虑filter的部分

ConstantScoreQuery
包装查询器或者Filter，让它们返回的结果的得分一致等于设置的查询权值。这样可以消除某种查询对打分的影响。

基本查询的组合
BooleanQuery
用布尔表达式组合多个基本查询。加入每个条件时，可以要求是否满足每个查询。

严格来说这个不是“与或非”层次化的布尔表达式。这里每个条件都通过BooleanClause.Occur属性相互连接。Occur属性有三种：
MUST 该条件必须满足
WUSTNOT该条件决不能满足
SHOULD 该条件可以满足

得分计算

BooleanQuery 是比较特殊的查询，只有它与计算分数的公式关系较大。它的分数中用到了coord()方法（计算匹配率）
如果设置为计算匹配率（new时默认参数），那么BooleanQuery输出所有子查询分数之和乘以匹配率的结果
否则（new时传入参数true），只计算匹配上的子查询分数的和。

DisjunctionMaxQuery
组合多个子查询，每篇文档的得分为该文档在所有子查询中的最大得分。

这个功能用于避免BooleanQuery的“或”条件把分数累加得太高。

模糊查询与多词查询
Lucene中没有模糊索引。所有模糊查询都是靠枚举索引词表中满足条件的词实现的。
所有的MultiTermQuery最终都会被改写为一个组合了多个TermQuery的BooleanQuery，且忽略匹配率

我们并不需要担心查两遍索引效率问题，在查找出Term构建Query时，已经提前读出了Term的idf等信息。

NumericRangeQuery
NumericRangeQuery 是数值范围查询。只能用在数值字段上，数值字段把数值转为byte串存储检索，因此最佳情况下应用2进制步长搜索。

TermRangeQuery
TermRangeQuery是范围查询。会查询从lowerTerm（包含）到upperTerm（包含）的一系列（按字符编码从低位递增的）Term，用在文本字段上。

TermRangeQuery用于保存数字的文本字段，作1到2位的模糊查询或许还不错，但是用于保存文本的文本字段可就不是那么有效了。很少有沿着字符编码（还是Unicode顺序）往下找的需求。这时候就要用一系列文本字段模糊查询了

PrefixQuery
前缀匹配查询

FuzzyQuery
基于编辑距离的模糊匹配查询

基于自动机枚举的模糊查询
从Lucene的实现来看，基于自动机做枚举的模糊匹配查询有4种：NumericRangeQuery FuzzyQuery RegexpQuery WildCardQuery，但这里只说后两种，因为更像我们通常所知道的自动机。

RegexpQuery

WildCardQuery

转载于:https://my.oschina.net/u/514122/blog/757959

chujia2349

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene 5.5 学习笔记（六）Lucene中的各种Query（上）

这一篇笔记中我们记录一些单个词的查询，下一篇中我们会详细分析短语的查询。基本查询 TermQuery TermQuery是Lucene查询中最基本的一种原子查询，一个TermQuery只查一个Term（一个Field中的一个词）查询时，Lucene在索引里检索出这个词的信息，以...
复制链接

扫一扫