ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)

最新推荐文章于 2024-02-19 11:44:07 发布

qq_42383787

最新推荐文章于 2024-02-19 11:44:07 发布

阅读量972

点赞数 1

分类专栏： ES 文章标签： ES 搜索10 (match、match_phrase、qu

本文链接：https://blog.csdn.net/qq_42383787/article/details/99681793

版权

ES 专栏收录该内容

31 篇文章 4 订阅

订阅专栏

（一）text字段和keyword字段的区别

以下给出一个例子：

首先建立一个索引和类型，引入一个keywork的字段：

PUT my_index
{
  "mappings": {
    "products": {
      "properties": {
        "name": {
          "type": "keyword"
        }
      }
    }
  }
}

然后查询是否有索引：

GET _cluster/state

可以看到已经创建成功：

添加一条数据：

POST my_index/products
{
  "name":"washing machin"
}

然后查询：

GET my_index/products/_search
{
  "query": {
    "term": {
      "name": "washing"
    }
  }
}

可以看到没有匹配到任何数据：

然后查询：

GET my_index/products/_search
{
  "query": {
    "term": {
      "name": "washing machine"
    }
  }
}

可以看到成功匹配到了数据：

所以将字段设置成keyword的时候查询的时候已有的值不会被分词。

现在添加一个text类型的字段：

PUT my_index/_mapping/products?update_all_types
{
  "properties": {
      "tag": {
        "type": "text"
      }
  }
}

可以看到添加成功：

往之前已经创建的doc之中添加tag的数据：

POST my_index/products/AWf9f66WV8yLH435XhgI
{
  "name":"washing machine",
  "tag":"electric household"
}

查询一下，可以看到：

然后对tag字段进行查询：

POST  /my_index/products/_search
{
  "query": {
    "term": {
      "tag": "household"
    }
  }
}

可以看到虽然没有全部输入，但是已经查询到了：

现在输入全部的查询：

POST  /my_index/products/_search
{
  "query": {
    "term": {
      "tag": "electric household"
    }
  }
}

发现现在已经查询不到了：

说明text类型的字段会被分词，查询的时候如果用拆开查可以查询的到，但是要是直接全部查，就是查询不到。

注意“1, 2”会被拆分成[1, 2]，但是"1,2"是不拆分的，少了个空格。

（二）match和term的区别

1.term

1）term查询keyword字段。

term不会分词。而keyword字段也不分词。需要完全匹配才可。

成功。

但是如果：

则查询失败。

2）term查询text字段。

因为text字段会分词，而term不分词，所以term查询的条件必须是text字段分词后的某一个。

查询成功。

查询失败，因为现在tag已经被分词了，存储的是[he, is, silly, man]。

这样查询：

也是失败了，道理跟上面的是一样的。

1）match查询keyword字段

match会被分词，而keyword不会被分词，match的需要跟keyword的完全匹配可以。

其他的不完全匹配的都是失败的。

2）match查询text字段

match分词，text也分词，只要match的分词结果和text的分词结果有相同的就匹配。

成功。如果都不相同就失败了。

1）match_phrase匹配keyword字段。

这个同上必须跟keywork一致才可以。

只有这种情况才是成功的。

2）match_phrase匹配text字段。

match_phrase是分词的，text也是分词的。match_phrase的分词结果必须在text字段分词中都包含，而且顺序必须相同，而且必须都是连续的。

这是成功的。

如果不是连续的，就会失败。

1）query_string查询key类型的字段，试过了，无法查询。

失败的，无法查询。

2）query_string查询text类型的字段。

和match_phrase区别的是，不需要连续，顺序还可以调换。

成功。

这样也是可以的。

match

最简单的一个match例子：

查询和"我的宝马多少马力"这个查询语句匹配的文档。

{
  "query": {
    "match": {
        "content" : {
            "query" : "我的宝马多少马力"
        }
    }
  }
}


# 另一种写法
{
  "query": {
    "match": {
      "content": "我的宝马多少马力"
    }
  }
}

上面的查询匹配就会进行分词，比如"宝马多少马力"会被分词为"宝马多少马力", 所有有关"宝马多少马力", 那么所有包含这三个词中的一个或多个的文档就会被搜索出来。
并且根据lucene的评分机制(TF/IDF)来进行评分。

match_phrase

比如上面一个例子，一个文档"我的保时捷马力不错"也会被搜索出来，那么想要精确匹配所有同时包含"宝马多少马力"的文档怎么做？就要使用 match_phrase 了

{
  "query": {
    "match_phrase": {
        "content" : {
            "query" : "我的宝马多少马力"
        }
    }
  }
}


# 另一种写法
{
  "query": {
    "match_phrase": {
      "content": "我的宝马多少马力"
    }
  }
}

完全匹配可能比较严，我们会希望有个可调节因子，少匹配一个也满足，那就需要使用到slop。

slop参数告诉match_phrase查询词条能够相隔多远时仍然将文档视为匹配。相隔多远的意思是，你需要移动一个词条多少次来让查询和文档匹配？

{
  "query": {
    "match_phrase": {
        "content" : {
            "query" : "我的宝马多少马力",
            "slop" : 1
        }
    }
  }
}

为了让查询 quick fox 能匹配一个包含 quick brown fox 的文档，我们需要 slop 的值为 1:

            Pos 1         Pos 2         Pos 3
-----------------------------------------------
Doc:        quick         brown         fox
-----------------------------------------------
Query:      quick         fox
Slop 1:     quick                 ↳     fox

multi_match

如果我们希望两个字段进行匹配，其中一个字段有这个文档就满足的话，使用multi_match

{
  "query": {
    "multi_match": {
        "query" : "我的宝马多少马力",
        "fields" : ["title", "content"]
    }
  }
}



# 提升权重

{
  "multi_match": {
    "query": "` + keyword + `",
    "fields": [
      "goodsName.goodsName^3",
      "categoryName^2",
      "goodsName.goodsNameMax^1",
      "jingle^1",
      "specString^1"
    ],
    "type": "cross_fields",
    "minimum_should_match": "5<90%"
  }
}

但是multi_match就涉及到匹配评分的问题了。

dis_max

dis_max 查询就是返回匹配了 query 的文档，分值是最佳匹配字段产生的分值。加上 tie_breaker 可得出很好的搜索效果。

{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "Quick pets" }},
                { "match": { "body":  "Quick pets" }}
            ],
            "tie_breaker": 0.3
        }
    }
}

multi_match 查询提供了一个简便的方法对多个字段执行相同的查询。默认情况下，该查询以 best_fields 类型执行，它会为每个字段生成一个 match 查询，然后将这些查询包含在一个 dis_max 查询中。

例如：

GET /_search
{
  "query": {
    "multi_match" : {
      "query":      "brown fox",
      "type":       "best_fields",
      "fields":     [ "subject", "message" ],
      "tie_breaker": 0.3
    }
  }
}

执行时就变成了：

GET /_search
{
  "query": {
    "dis_max": {
      "queries": [
        { "match": { "subject": "brown fox" }},
        { "match": { "message": "brown fox" }}
      ],
      "tie_breaker": 0.3
    }
  }
}

可通过 caret 语法(^) 对个别字段加权，如：

{
    "multi_match": {
        "query":  "Quick brown fox",
        "fields": [ "title", "chapter_title^2" ]
    }
}

我们希望完全匹配的文档占的评分比较高，则需要使用best_fields

{
  "query": {
    "multi_match": {
      "query": "我的宝马发动机多少",
      "type": "best_fields",
      "fields": [
        "tag",
        "content"
      ],
      "tie_breaker": 0.3
    }
  }
}

意思就是完全匹配"宝马发动机"的文档评分会比较靠前，如果只匹配宝马的文档评分乘以0.3的系数

我们希望越多字段匹配的文档评分越高，就要使用most_fields

{
  "query": {
    "multi_match": {
      "query": "我的宝马发动机多少",
      "type": "most_fields",
      "fields": [
        "tag",
        "content"
      ]
    }
  }
}

我们会希望这个词条的分词词汇是分配到不同字段中的，那么就使用cross_fields

{
  "query": {
    "multi_match": {
      "query": "我的宝马发动机多少",
      "type": "cross_fields",
      "fields": [
        "tag",
        "content"
      ]
    }
  }
}

qq_42383787

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
ES 搜索10 (match、match_phrase、query_string、term、dis_max 的区别)

（一）text字段和keyword字段的区别以下给出一个例子：首先建立一个索引和类型，引入一个keywork的字段：PUT my_index{ "mappings": { "products": { "properties": { "name": { "type": "keyword" } }...
复制链接

扫一扫