Elasticsearch——Query DSL

本文详细介绍了Elasticsearch的Query DSL,包括查询context与过滤context的区别,如查询上下文影响文档相似度,过滤上下文用于数据过滤。讨论了Match All Query和Match None Query,并深入解析了全文检索,如Match Query、Fuzziness、多词匹配和多字段搜索等。此外,还探讨了如何使用bool匹配和dis_max查询来优化查询性能。
摘要由CSDN通过智能技术生成

概述

Elasticsearch提供基于Json的查询功能,将DSL查询看做AST树的话,包含两种子句类型:
+ Leaf query clauses:叶子节点的查询子句,主要用于检索特定字段的特定值,例如match、term、range查询。这些子句可以嵌套自己。
+ Compound query clauses:复合子句,用于组合多个叶子查询子句,形成逻辑,例如bool或者dis_max查询,或者行为修改(例如constant_score查询)
查询子句在query上下文与filter上下文表现有所区别。

查询context与过滤context

查询上下文

查询上下文中的查询子句,用于计算文档与该查询的相似程度,同时计算_score用于衡量相似度。当查询子句放入query中时,此时该查询子句就处于查询上下文中。例如:

{
    "query": {
        "match" :{
                "message": "test"
                       }
                    }
}

过滤上下文

过滤上下文中的查询子句主要解决“这个文档是否符合这个查询子句”,其结果不是相似度,结果只有“是”或者“否”。过滤想下雨主要用于过滤数据,例如
+ 年龄是否大于18岁
+ 状态是否是正常
大量使用过滤上下文时,过滤查询会被ES自动缓存,加速性能。当查询子句放入“filter”参数中时,会被置于过滤环境中,例如bool查询中的filter或者must_not、constant_score中的filter参数以及聚集中的filter,都是过滤上下文环境。具体过滤如何缓存,会单独介绍。

示例

总结:将影响文档相似度计算的查询,放入query上下文中,将其他的查询放入filter的上下文中。
这里写图片描述
1. 查询参数,表示查询上下文
2. bool查询,其中两个match查询子句(3和4),位于查询上下文中,用于计算匹配程度
5. 过滤参数,表示过滤上下文
6. 过滤上下文中的term查询,用于过滤数据
7. 过滤上下文中的range擦好像,用于过滤数据

Match All Query

Match All Query

最简单的查询:匹配所有文档,对每个文档打分_score为1.0,相当于关系数据库中的select * from table

curl -XGET 'localhost:9200/_search?pretty' -d'
{
    "query": {
        "match_all": {}
    }
}'

如果对于某个查询条件,希望更改其计算_score的权重,可以使用boost参数:

curl -XGET 'localhost:9200/_search?pretty' -d'
{
    "query": {
        "match_all": { "boost" : 1.2 }
    }
}'

Match None Query

与全检索相反,可以使用match_none,不匹配任何文档

curl -XGET 'localhost:9200/_search?pretty' -d'
{
    "query": {
        "match_none": {}
    }
}'

全文检索

全文搜索两个最重要的方面是:

  • 相关(relevance):相关是将查询到相关的文档结果进行排名的一种能力,这种相关度可以是根据TF/IDF、地理位置相似性(geolocation)、模糊相似,或者其他的一些算法得出。

  • 分析(analysis):将一个文本块转换为唯一的、规范化的token的过程,目的是为了(a)创建反向索引以及(b)查询反向索引。

当我们提到相关与分析的时候,我们已经身处查询上下文之中,而不是过滤。

Full text queries

高层级的全文检索,通常会对文本的整体内容进行分析查询。在检索前会使用每个字段的analyzer对查询字段进行分词。
+ 如果我们用它来查询 时间(date) 或 整数(integer),他们会将查询字符串用分别当作 时间 和 整数。
+ 如果查询一个准确的(未分析过的 not_analyzed)字符串字段,它会将整个查询字符串当成一个术语。
+ 但是如果要查询一个全文字段(分析过的 analyzed),它会讲查询字符串传入到一个合适的分析器,然后生成一个供查询的术语列表。
一旦查询组成了一个术语列表,它会对每个术语逐一执行低层次的查询,然后将结果合并,为每个文档生成一个最终的相关性分数。
注意
当我们想要准确查询一个未分析过(not_analyzed)的字段之前,需要仔细想想,我们到底是想要一个查询还是一个过滤。
单术语查询通常可以用是非问题表示,所以更适合用过滤来表达,而且这样子可以有效利用过滤的缓存。
下面对全文本查询进行详细介绍:

Match Query匹配查询

match查询接受文本、数值、时间类型的数据,对其进行分析,构建查询。简单示例:


curl -XGET 'localhost:9200/_search?pretty' -d'

{

    "query": {

        "match" : {

            "message" : "this is a test"

        }

    }

}'

其中message是字段名称,可以根据情况替换。上面的查询会先对this is a test进行分词,对每个term进行匹配并合并结果。

match

match是布尔类型的查询,通过对提供的文本进行analyze,构建一个boolean的查询。

  • operator:其操作符operator可以设定为and或者or,用于控制查询结构的构建。

  • minimum_should_match:当存在多个should可选时,可以通过minimum_should_match来设定最少匹配的should条件个数。

  • analyzer:可以控制文本分析器

  • lenient:默认为false,当设定为true时,可以忽略类型不匹配导致的异常

Fuzziness

fuziness可以开启模糊匹配功能。通过设定模糊参数,修改匹配时可以容忍的差距,该值最后在0-2之间,值越大,则计算时间越长。例如下面的例子中,名称多了一个a,通过模糊匹配也能查找出来:

这里写图片描述

参考:
https://www.elastic.co/blog/found-fuzzy-search

zero terms query

cutoff frequency

指定文档频率

match phrase

短语匹配ÿ

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值