ES之单字符串多字段查询：multi_match

最新推荐文章于 2023-07-12 17:02:13 发布

小手追梦

最新推荐文章于 2023-07-12 17:02:13 发布

阅读量7.8k

点赞数 1

分类专栏： java

本文链接：https://blog.csdn.net/epitomizelu/article/details/106295078

版权

java 专栏收录该内容

168 篇文章 4 订阅

订阅专栏

在es的查询中，有两个指标非常重要：

一是准确率，查询到的结果集中包含的正确结果数占比；

二是召回率，就是查到的结果集中正确结果在所有正确结果(包含查询到的和未查询到的)中的占比。

在单字符串多字段查询过程中，考虑到正确率，就是要把匹配度最高的放在最前面；考虑到召回率就是就可能多的把相关文档都查出来。

在es中，multi_match就是针对单字符串多字段查询的解决方案，包括三种查询：best_fields,most_fields,cross_fields。

一，best_fields

多字段查询中，单字段匹配度最高的那个文档的算分最高。

插入测试数据:

PUT multi_query_index/_bulk
{"index":{"_id":1}}
{"title":"my bark dogs","body":"cats and dogs"}
{"index":{"_id":2}}
{"title":"my cat mimi","body":"of barking dogs"}

先用bool查询来一波

按照常规理解，第二个文档的body属性中有barking dogs，应该匹配度最高。但结果却是文档1算分最高，排在最前面。

但是考虑到以下几个原因：

一是分词会将barking和dogs还原为bark和dog，这样算起这两个词在文档1一共出现了三次，在文档2中出现了两次，文档1的匹配度最高。

二是，在文本搜索中barking dogs并非整体作为一个关键字去搜索，而是被分词后进行搜索。

三是，bool查询会对每一个match query进行加权平均算分。

GET multi_query_index/_search
{
  "query": {
     "bool": {
       "should": [
         {
           "match": {
             "title":  "barking dogs"
           }
         },
         {
           "match": {
             "body":  "barking dogs"
           }
         }
       ]
     }
  }
}

使用multi_query的best_fields来一波

multi_query默认是best_fields模式，即找出匹配度最高的字段的算分作为整个查询的最高算分。这样的话，第二个文档算分就最高了。

GET multi_query_index/_search
{
  "explain": true, 
  "query": {
    "multi_match": {
      "type": "best_fields", 
      "query": "barking dogs",
      "fields": ["title","body"]
    }
  }
}

当然，在这个查询中，我们可以指定字段权重，突出某个字段的评分

GET multi_query_index/_search
{
  "explain": true, 
  "query": {
    "multi_match": {
      "type": "best_fields", 
      "query": "barking dogs",
      "fields": ["title^10","body"]
    }
  }
}

本质上，multi_match/best_field查询被转换为一个disjunction query。

二，most_fields

most fields字段主要是利用multifields特性，在索引的mapping中对字段设置多个字段，该字段的分词器采用标准分词器，这样的话，分词只会根据空格拆分，而不会对单词进行主干提取。

PUT /multi_query_most_fields
{
    "settings": { "number_of_shards": 1 }, 
    "mappings": {
        "my_type": {
            "properties": {
                "title": { 
                    "type":     "string",
                    "analyzer": "english",
                    "fields": {
                        "std":   { 
                            "type":     "string",
                            "analyzer": "standard"
                        }
                    }
                }
            }
        }
    }
}

插入2条数据

PUT /multi_query_most_fields/_doc/1
{ "title": "My rabbit jumps" }

PUT /multi_query_most_fields/_doc/2
{ "title": "Jumping jack rabbits" }

针对title单字段来一波multi query查询

这波查询，两个文档的算分一样，但显然第二个文档的算分应该高一些，这就是因为title使用的english分词器会将jumping还原为jump，rabbits还原为rabbit。

GET multi_query_most_fields/_search
{
  "query": {
    "multi_match": {
      "query": "jumping rabbits",
      "fields": ["title"],
      "type": "most_fields"
    }
  }
}

针对title及其multifields来一波multi query查询

这波查询，多了对title.std的查询，结果就是第二个文档的算分高，排在最前面，这是因为title.std使用了standard分词器。

GET multi_query_most_fields/_search
{
  "query": {
    "multi_match": {
      "query": "jumping rabbits",
      "fields": ["title","title.std"],
      "type": "most_fields"
    }
  }
}

这里，再尝试一次bool查询。

结果发现，bool查询的结果和multi_query/most_fields查询一致。

其实，multi_query/most_fields原理上就是被封装为一个bool查询的。

GET multi_query_most_fields/_search
{
  "query": {
    "dis_max": {
      "boost": 1.2,
      "queries": [
        {
          "match": {
            "title": "jumping rabbits"
          }
        },
        {
         "match": {
            "title.std": "jumping rabbits"
          }
        }
      ]
    }
  }
}

参考文献

小手追梦

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
ES之单字符串多字段查询：multi_match

在es的查询中，有两个指标非常重要，一是准确率，查询到的结果集中包含的正确结果数占比；二是召回率，就是查到的结果集中正确结果在所有正确结果(包含查询到的和未查询到的)中的占比。在单字符串多字段查询过程中，考虑到正确率，就是要把匹配度最高的放在最前面；考虑到召回率就是就可能多的把相关文档都查出来。在es中，multi_match就是针对单字符串多字段查询的解决方案，包括三种查询：best_fields,most_fields,cross_fields。一，best_fields多字段查询中，单字段匹配
复制链接

扫一扫