十一、ElasticSearch——搜索查询之二Query DSL（match all query,full text querys,term level querys ）

最新推荐文章于 2022-12-09 09:56:50 发布

仁钦宝

最新推荐文章于 2022-12-09 09:56:50 发布

阅读量462

点赞数

分类专栏： ElasticSearch

本文链接：https://blog.csdn.net/m0_38143867/article/details/97376298

版权

ElasticSearch 专栏收录该内容

13 篇文章 2 订阅

订阅专栏

一、 Query DSL简介

1）DSL是什么
Domain Specific Language：领域特定语言，Elasticsearch基于JSON提供完整的查询DSL来定义查询。

一个查询可由两部分子句构成
（1）Leaf query clauses 叶子查询子句
Leaf query clauses 在指定的字段上查询指定的值, 如：match, term or range queries. 叶子子句可以单独使用.
（2）Compound query clauses 复合查询子句
以逻辑方式组合多个叶子、复合查询为一个查询

2）Query and filter context
一个查询子句的行为取决于它是用在query context 还是 filter context 中。
（1）Query context 查询上下文
用在查询上下文中的子句回答“这个文档有多匹配这个查询?”。除了决定文档是否匹配，子句匹配的文档还会计算一个子句评分，来评定文档有多匹配。查询上下文由 query 元素表示。
（2） Filter context 过滤上下文
过滤上下文由 filter 元素或 bool 中的 must not 表示。用在过滤上下文中的子句回答“这个文档是否匹配这个查询？”，不参与相关性评分。
被频繁使用的过滤器将被ES自动缓存，来提高查询性能。

Query and filter context

GET /_search
{
“query”: {
“bool”: {
“must”: [
{ “match”: { “title”: “Search” }},
{ “match”: { “content”: “Elasticsearch” }}
],
“filter”: [
{ “term”: { “status”: “published” }},
{ “range”: { “publish_date”: { “gte”: “2015-01-01” }}}
]
}
}
}

提示：在查询上下文中使用查询子句来表示影响匹配文档得分的条件，并在过滤上下文中使用所有其他查询子句，两个子句交集的结果为最终的结果。

二、查询分类介绍

在这里插入图片描述

1 Match all query查询所有

GET /_search
{
“query”: {
“match_all”: {}
}
}

GET /_search
{
“query”: {
“match_none”: {}
}
}

2 Full text querys
全文查询，用于对分词的字段进行搜索。会用查询字段的分词器对查询的文本进行分词生成查询。可用于短语查询、模糊查询、前缀查询、临近查询等查询场景

https://www.elastic.co/guide/en/elasticsearch/reference/current/full-text-queries.html

在这里插入图片描述
（1）match query

全文查询的标准查询，它可以对一个字段进行模糊、短语查询。 match queries 接收 text/numerics/dates, 对它们进行分词分析, 再组织成一个boolean查询。可通过operator 指定bool组合操作（or、and 默认是 or ），以及minimum_should_match 指定至少需多少个should(or)字句需满足。还可用ananlyzer指定查询用的特殊分析器。
GET /_search
{
“query”: {
“match” : {
“message” : “this is a test”
}
}
}

https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-match-query.html

在这里插入图片描述

在这里插入图片描述
（2）match phrase query
match_phrase 查询用来对一个字段进行短语查询，可以指定 analyzer、slop移动因子

GET ftq/_search
{
“query”: {
“match_phrase”: {
“title”: “lucene solr”
}
}
}

GET ftq/_search
{
“query”: {
“match_phrase”: {
“title”: “lucene elasticsearch” 必须紧挨着才能匹配得到
}
}
}

GET ftq/_search
{
“query”: {
“match_phrase”: {
“title”: {
“query”: “lucene elasticsearch”,
“slop”: 2 允许移动2步之后，判断是否紧挨着才能匹配得到
}
}
}
}

（3）match phrase prefix query

match_phrase_prefix 在 match_phrase 的基础上支持对短语的最后一个词进行前缀匹配

GET /_search
{
“query”: {
“match_phrase_prefix” : {
“message” : “quick brown f” 最后一个词以f开头的进行匹配
}
}
}

GET /_search
{
“query”: {
“match_phrase_prefix” : {
“message” : {
“query” : “quick brown f”,
“max_expansions” : 10 指定前缀匹配选用的最大词项数量
}
}
}
}

（4）Multi match query
如果你需要在多个字段上进行文本搜索，可用multi_match 。 multi_match在 match的基础上支持对多个字段进行文本查询。

GET ftq/_search
{
“query”: {
“multi_match” : {
“query”: “lucene java”,
“fields”: [ “title”, “content” ]
}
}
}

GET ftq/_search
{
“query”: {
“multi_match” : {
“query”: “lucene java”,
“fields”: [ “title”, “cont*” ] 模糊匹配
}
}
}

GET ftq/_search?explain=true
{
“query”: {
“multi_match” : {
“query”: “lucene elastic”,
“fields”: [ “title^5”, “content” ] 给字段的相关性评分加权重5
}
}
}

（5）Common terms query 常用词查询

问1、什么是停用词？索引时做停用词处理的目的是什么？
停用词是文本中出现的介词等，停用词处理的目的是减少存储的空间，提升效率

问2、如果在索引时应用停用词处理，下面的两个查询会查询什么词项？
the brown fox–brown fox
not happy–happy

问3、索引时应用停用词处理对搜索精度是否有影响？如果不做停用词处理又会有什么影响？如何协调这两个问题？如何保证搜索的精确度又兼顾搜索性能？
会，效率低，

( 6 ) tf-idf 相关性计算模型简介

tf：term frequency 词频：指一个词在一篇文档中出现的频率

如“世界杯”在文档A中出现3次，那么可以定义“世界杯”在文档A中的词频为3。请问在一篇3000字的文章中出现“世界杯”3次和一篇150字的文章中出现3词，哪篇文章更是与“世界杯”有关的。也就是说，简单用出现次数作为频率不够准确。那就用占比来表示：

在这里插入图片描述

df：document frequency 词的文档频率：指包含某个词的文档数（有多少文档中包含这个词）。 df越大的词越常见，哪些词会是高频词？

问1：词的df值越大说明这个词在这个文档集中是越重要还是越不重要？
越不重要，太普遍了
问2：词t的tf高，在文档集中的重要性也高，是否说明文档与该词越相关？举例：整个文档集中只有3篇文档中有“世界杯”，文档A中就出现了“世界杯”好几次。

问3：如何用数值体现词t在文档集中的重要性？df可以吗？

用文档总数 / df 可以吗？

idf：inverse document frequency 词的逆文档频率：用来表示词在文档集中的重要性。文档总数/ df ，df越小，词越重要，这个值会很大，那就对它取个自然对数，将值映射到一个较小的取值范围

在这里插入图片描述
说明： +1 是为了避免除0（即词t在文档集中未出现的情况）
tf-idf 相关性性计算模型：

（7）Common terms query

common 区分常用（高频）词查询让我们可以通过cutoff_frequency来指定一个分界文档频率值，将搜索文本中的词分为高频词和低频词，低频词的重要性高于高频词，先对低频词进行搜索并计算所有匹配文档相关性得分（happy）；然后再搜索和高频词匹配的文档，这会搜到很多文档，但只对和低频词重叠的文档进行相关性得分计算（这可保证搜索精确度，同时大大提高搜索性能），和低频词累加作为文档得分。实际执行的搜索是必须包含低频词 + 或包含高频词(省略了对高频词计算得分)

思考：这样处理下，如果用户输入的都是高频词如 “to be or not to be”结果会是怎样的？你希望是怎样的？
优化：如果都是高频词，那就对这些词进行and 查询。
进一步优化：让用户可以自己定对高频词做and/or 操作，自己定对低频词进行and/or 操作；或指定最少得多少个同时匹配。

在这里插入图片描述

GET /_search
{
“query”: {
“common”: {
“body”: {
“query”: “nelly the elephant as a cartoon”,
“cutoff_frequency”: 0.001,
“minimum_should_match”: 2
}
}
}
}

GET /_search
{
“query”: {
“common”: {
“body”: {
“query”: “nelly the elephant not as a cartoon”,
“cutoff_frequency”: 0.001,
“minimum_should_match”: {
“low_freq” : 2,
“high_freq” : 3
}
}
}
}
}

在这里插入图片描述

（8）Query string query
query_string 查询，让我们可以直接用lucene查询语法写一个查询串进行查询，ES中接到请求后，通过查询解析器解析查询串生成对应的查询。使用它要求掌握lucene的查询语法。

GET /_search
{
“query”: {
“query_string” : {
“default_field” : “content”,
“query” : “this AND that OR thus”
}
}
}

GET /_search
{
“query”: {
“query_string” : {
“fields” : [“content”, “name.*^5”],
“query” : “this AND that OR thus”
}
}
}

可与query同用的参数，如 default_field、fields，及query 串的语法请参考：
https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-query-string-query.html

（9）Lucene查询语法
查询描述规则语法（查询解析语法）：

a）Term 词项：
单个词项的表示：电脑
短语的表示： “联想笔记本电脑”

b ) Field 字段：
字段名:
示例： name:“联想笔记本电脑” AND type:电脑
如果name是默认字段，则可写成： “联想笔记本电脑” AND type:电脑
如果查询串是：type:电脑计算机手机
注意：只有第一个是type的值，后两个则是使用默认字段。

c ) Term Modifiers 词项修饰符：
统配符：
? 单个字符

0个或多个字符
示例：te?t test* te*t
注意：通配符不可用在开头。

模糊查询，词后加 ~
示例： roam~
模糊查询最大支持两个不同字符。
示例： roam~1

正则表达式： /xxxx/
示例： /[mb]oat/

临近查询，短语后加 ~移动值
示例： “jakarta apache”~10

范围查询：
mod_date:[20020101 TO 20030101] 包含边界值
title:{Aida TO Carmen} 不包含边界值

词项加权，使该词项的相关性更高，通过 ^数值来指定加权因子，默认加权因子值是1
示例：如要搜索包含 jakarta apache 的文章，jakarta更相关，则：
jakarta^4 apache
短语也可以： “jakarta apache”^4 “Apache Lucene”

d ) Boolean 操作符

Lucene支持的布尔操作： AND, “+”, OR, NOT ,"-"

OR
“jakarta apache” jakarta =“jakarta apache” OR jakarta

AND
“jakarta apache” AND “Apache Lucene”

必须包含
+jakarta lucene

NOT 非
“jakarta apache” NOT "Apache Lucene“
注意：NOT不可单项使用：
NOT “Apache Lucene“ 不可

同NOT
“jakarta apache” -"Apache Lucene“

组合 ()
字句组合
(jakarta OR apache) AND website
字段组合
title:(+return +“pink panther”)

转义 \

对语法字符： + - && || ! ( ) { } [ ] ^ “ ~ * ? : \ / 进行转义。
如要查询包含 (1+1):2
(1+1):2

(9) Simple Query string query
simple_query_string 查同 query_string 查询一样用lucene查询语法写查询串，较query_string不同的地方：更小的语法集；查询串有错误，它会忽略错误的部分，不抛出错误。更适合给用户使用。

GET /_search
{
“query”: {
“simple_query_string” : {
“query”: ““fried eggs” +(eggplant | potato) -frittata”,
“fields”: [“title^5”, “body”],
“default_operator”: “and”
}
}
}

https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-simple-query-string-query.html

3Term level querys

https://www.elastic.co/guide/en/elasticsearch/reference/current/term-level-queries.html

在这里插入图片描述
（1）Term query
term 查询用于查询指定字段包含某个词项的文档
POST _search
{
“query”: {
“term” : { “user” : “Kimchy” }
}
}
GET _search
{
“query”: {
“bool”: {
“should”: [
{
“term”: {
“status”: {
“value”: “urgent”,
“boost”: 2.0 加权重

        }
      }
    },
    {
      "term": {
        "status": "normal" 
      }
    }      ]    }  }}

（2）Terms query
terms 查询用于查询指定字段包含某些词项的文档。
GET /_search
{
“query”: {
“terms” : { “user” : [“kimchy”, “elasticsearch”]}
}
}

Terms 查询支持嵌套查询的方式来获得查询词项，相当于 in (select term from other）
Terms query 嵌套查询示例
PUT /users/_doc/2
{
“followers” : [“1”, “3”]
}

PUT /tweets/_doc/1
{
“user” : “1”
}

GET /tweets/_search
{
“query” : {
“terms” : {
“user” : {
“index” : “users”,
“type” : “_doc”,
“id” : “2”,
“path” : “followers”
}
} }}

在这里插入图片描述
（3）range query

GET _search
{
“query”: {
“range” : {
“age” : {
“gte” : 10,
“lte” : 20,
“boost” : 2.0
}
}
}
}

GET _search
{
“query”: {
“range” : {
“date” : {
“gte” : “now-1d/d”,
“lt” : “now/d”
}
}
}
}

GET _search
{
“query”: {
“range” : {
“born” : {
“gte”: “01/01/2012”,
“lte”: “2013”,
“format”: “dd/MM/yyyy||yyyy”
}
}
}
}

在这里插入图片描述
时间舍入 ||说明：

时间数学计算规则请参考：
https://www.elastic.co/guide/en/elasticsearch/reference/current/common-options.html#date-math

（4）exists query
查询指定字段值不为空的文档。相当 SQL 中的 column is not null
GET /_search
{
“query”: {
“exists” : { “field” : “user” }
}
}

查询指定字段值为空的文档
GET /_search
{
“query”: {
“bool”: {
“must_not”: {
“exists”: {
“field”: “user”
}
} } }}

（5）prefix query 词项前缀查询
GET /_search
{ “query”: {
“prefix” : { “user” : “ki” }
}
}

GET /_search
{ “query”: {
“prefix” : { “user” : { “value” : “ki”, “boost” : 2.0 } }
}
}

（6）wildcard query 通配符查询：？ *
GET /_search
{
“query”: {
“wildcard” : { “user” : “ki*y” }
}
}

GET /_search
{
“query”: {
“wildcard”: {
“user”: {
“value”: “ki*y”,
“boost”: 2
}
}
}}

（7）regexp query 正则查询

GET /_search
{
“query”: {
“regexp”:{
“name.first”: “s.*y”
}
}
}

GET /_search
{
“query”: {
“regexp”:{
“name.first”:{
“value”:“s.*y”,
“boost”:1.2
}
}
}
}

正则语法请参考：
https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-regexp-query.html#regexp-syntax

（8）fuzzy query 模糊查询

GET /_search
{
“query”: {
“fuzzy” : { “user” : “ki” }
}
}

GET /_search
{
“query”: {
“fuzzy” : {
“user” : {
“value”: “ki”,
“boost”: 1.0,
“fuzziness”: 2,
“prefix_length”: 0,
“max_expansions”: 100
}
}
}
}

（9）type query mapping type 查询
GET /_search
{
“query”: {
“type” : {
“value” : “_doc”
}
}
}

（10）ids query 根据文档id查询

GET /_search
{
“query”: {
“ids” : {
“type” : “_doc”,
“values” : [“1”, “4”, “100”]
}
}
}

4 Compound querys 复合查询

https://www.elastic.co/guide/en/elasticsearch/reference/current/compound-queries.html
在这里插入图片描述
（1）Constant Score query

用来包装另一个查询，将查询匹配的文档的评分设为一个常值（都一致）。

GET /_search
{
“query”: {
“constant_score” : {
“filter” : {
“term” : { “user” : “kimchy”}
},
“boost” : 1.2
}
}

（2）Bool query
Bool 查询用bool操作来组合多个查询字句为一个查询。可用的关键字：
在这里插入图片描述

POST _search
{
“query”: {
“bool” : {
“must” : {
“term” : { “user” : “kimchy” }
},
“filter”: {
“term” : { “tag” : “tech” }
},
“must_not” : {
“range” : {
“age” : { “gte” : 10, “lte” : 20 }
}
},
“should” : [
{ “term” : { “tag” : “wow” } },
{ “term” : { “tag” : “elasticsearch” } }
],
“minimum_should_match” : 1,
“boost” : 1.0
}
}
}

仁钦宝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
十一、ElasticSearch——搜索查询之二Query DSL（match all query,full text querys,term level querys ）

一、 Query DSL简介1）DSL是什么Domain Specific Language：领域特定语言，Elasticsearch基于JSON提供完整的查询DSL来定义查询。一个查询可由两部分子句构成（1）Leaf query clauses 叶子查询子句Leaf query clauses 在指定的字段上查询指定的值, 如：match, term or range queries....
复制链接

扫一扫