Lucene 5.5 学习笔记(六)Lucene中的各种Query(上)

这一篇笔记中我们记录一些单个词的查询,下一篇中我们会详细分析短语的查询。

基本查询

TermQuery
TermQuery是Lucene查询中最基本的一种原子查询,一个TermQuery只查一个Term(一个Field中的一个词)

查询时,Lucene在索引里检索出这个词的信息,以及这个词对应的所有的文档Id。

修饰
FilteredQuery
FilteredQuery是在已经定义好的query上附加了过滤器;但是过滤器不影响文档的打分,打分的时候,FilterQuery只考虑query的部分,不考虑filter的部分

ConstantScoreQuery
包装查询器或者Filter,让它们返回的结果的得分一致等于设置的查询权值。这样可以消除某种查询对打分的影响。

基本查询的组合
BooleanQuery
用布尔表达式组合多个基本查询。加入每个条件时,可以要求是否满足每个查询。

严格来说这个不是“与或非”层次化的布尔表达式。这里每个条件都通过BooleanClause.Occur属性相互连接。Occur属性有三种:
MUST 该条件必须满足
WUSTNOT该条件决不能满足
SHOULD 该条件可以满足

得分计算

BooleanQuery 是比较特殊的查询,只有它与计算分数的公式关系较大。它的分数中用到了coord()方法(计算匹配率)
如果设置为计算匹配率(new时默认参数),那么BooleanQuery输出所有子查询分数之和乘以匹配率的结果
否则(new时传入参数true),只计算匹配上的子查询分数的和。

DisjunctionMaxQuery
组合多个子查询,每篇文档的得分为该文档在所有子查询中的最大得分。

这个功能用于避免BooleanQuery的“或”条件把分数累加得太高。

模糊查询与多词查询
Lucene中没有模糊索引。所有模糊查询都是靠枚举索引词表中满足条件的词实现的。
所有的MultiTermQuery最终都会被改写为一个组合了多个TermQuery的BooleanQuery,且忽略匹配率

我们并不需要担心查两遍索引效率问题,在查找出Term构建Query时,已经提前读出了Term的idf等信息。

NumericRangeQuery 
NumericRangeQuery 是数值范围查询。只能用在数值字段上,数值字段把数值转为byte串存储检索,因此最佳情况下应用2进制步长搜索。

TermRangeQuery
TermRangeQuery是范围查询。会查询从lowerTerm(包含)到upperTerm(包含)的一系列(按字符编码从低位递增的)Term,用在文本字段上。

TermRangeQuery用于保存数字的文本字段,作1到2位的模糊查询或许还不错,但是用于保存文本的文本字段可就不是那么有效了。很少有沿着字符编码(还是Unicode顺序)往下找的需求。这时候就要用一系列文本字段模糊查询了

PrefixQuery
前缀匹配查询

FuzzyQuery
基于编辑距离的模糊匹配查询

基于自动机枚举的模糊查询
从Lucene的实现来看,基于自动机做枚举的模糊匹配查询有4种:NumericRangeQuery  FuzzyQuery RegexpQuery WildCardQuery,但这里只说后两种,因为更像我们通常所知道的自动机。

RegexpQuery

WildCardQuery 

转载于:https://my.oschina.net/u/514122/blog/757959

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值