[Elasticsearch] 多字段搜索 (一) - 多个及单个查询字符串

最新推荐文章于 2024-02-21 22:30:19 发布

快乐地编程

最新推荐文章于 2024-02-21 22:30:19 发布

阅读量1.9k

点赞数 2

分类专栏：分布式搜索文章标签： elasticsearch

分布式搜索专栏收录该内容

2 篇文章 0 订阅

订阅专栏

多字段搜索(Multifield Search)

本文翻译自官方指南的Multifield Search一章。

查询很少是只拥有一个match查询子句的查询。我们经常需要对一个或者多个字段使用相同或者不同的查询字符串进行搜索，这意味着我们需要将多个查询子句和它们得到的相关度分值以一种有意义的方式进行合并。

也许我们正在寻找一本名为战争与和平的书，它的作者是Leo Tolstoy。也许我们正在使用"最少应该匹配(Minimum Should Match)"来搜索ES中的文档。另外我们也可能会寻找拥有名为John而姓为Smith的用户。

在本章中我们会讨论一些构建多字段搜索的工具，以及如何根据你的实际情况来决定使用哪种方案。

多个查询字符串(Multiple Query Strings)

处理字段查询最简单的方法是将搜索词条对应到特定的字段上。如果我们知道战争与和平是标题，而Leo Tolstoy是作者，那么我们可以简单地将每个条件当做一个match子句，然后通过bool查询将它们合并：

GET /_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "title":  "War and Peace" }},
        { "match": { "author": "Leo Tolstoy"   }}
      ]
    }
  }
}

bool查询采用了一种"匹配越多越好(More-matches-is-better)"的方法，因此每个match子句的分值会被累加来得到文档最终的_score。匹配两个子句的文档相比那些只匹配一个子句的文档的分值会高一些。

当然，你并不是只能使用match子句：bool查询可以包含任何其他类型的查询，包括其它的bool查询。我们可以添加一个子句来指定我们希望的译者：

GET /_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "title":  "War and Peace" }},
        { "match": { "author": "Leo Tolstoy"   }},
        { "bool":  {
          "should": [
            { "match": { "translator": "Constance Garnett" }},
            { "match": { "translator": "Louise Maude"      }}
          ]
        }}
      ]
    }
  }
}

我们为什么将译者的查询子句放在一个单独的bool查询中？所有的4个match查询都是should子句，那么为何不将译者的查询子句和标题及作者的查询子句放在同一层次上呢？

答案在于分值是如何计算的。bool查询会运行每个match查询，将它们的分值相加，然后乘以匹配的查询子句的数量，最后除以所有查询子句的数量。相同层次的每个子句都拥有相同的权重。在上述查询中，bool查询中包含的译者查询子句只占了总分值的三分之一。如果我们将译者查询子句放到和标题及作者相同的层次上，就会减少标题和作者子句的权重，让它们各自只占四分之一。

设置子句优先级

上述查询中每个子句占有三分之一的权重也许并不是我们需要的。相比译者字段，我们可能对标题和作者字段更有兴趣。我们对查询进行调整来让标题和作者相对更重要。

在所有可用措施中，我们可以采用的最简单的方法是boost参数。为了增加title和author字段的权重，我们可以给它们一个大于1的boost值：

GET /_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { 
            "title":  {
              "query": "War and Peace",
              "boost": 2
        }}},
        { "match": { 
            "author":  {
              "query": "Leo Tolstoy",
              "boost": 2
        }}},
        { "bool":  { 
            "should": [
              { "match": { "translator": "Constance Garnett" }},
              { "match": { "translator": "Louise Maude"      }}
            ]
        }}
      ]
    }
  }
}