ElasticSearch之单值多字段查询以及multi match

写在前面

这篇文章 我们看了使用dis_max查询来进行单值多字段场景下的查询,如下:

POST /blogs/_search
{
    "query": {
        "dis_max": {
            "queries": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

这里不知道你注意到没有,Brown fox我们重复写了N遍,即要查询的字段越多则重复写的次数也越多,想要解决这个问题,就可以使用本文要学习的multi_match了。

1:multi_match的三种方式

1.1:best_field

这种方式使用每个文档中字段的最高得分作为最终得分进行匹配,这和dis max query 是一样的效果,如下的查询:

DELETE blogs
PUT /blogs/_doc/1
{
  "title": "Quick brown rabbits",
  "body": "Brown rabbits are commonly seen."
}

PUT /blogs/_doc/2
{
  "title": "Keeping pets healthy",
  "body": "My quick brown fox eats rabbits on a regular basis"
}

POST /blogs/_search
{
    "query": {
        "dis_max": {
            "tie_breaker": 0, 
            "queries": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

在这里插入图片描述
同样也可以使用multi_match的best_field来实现:

POST /blogs/_search
{
    "query": {
        "multi_match": {
            "query": "Brown fox",
            "type": "best_fields",
            "fields": [
                "title",
                "body"
            ],
            "tie_breaker": 0
        }
    }
}

在这里插入图片描述

1.2:most_field

这种方式是某个文档匹配的字段越多,则得分越高,如下:

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "bb", "f3": "cc"}
{"index": {"_id": 3}}
{"f1":"aa", "f2": "bb", "f3": "cc", "f4": "dd"}

POST /news/_search
{
    "query": {
        "multi_match": {
            "query": "aa bb cc dd",
            "type": "most_fields",
            "fields": [
                "f1",
                "f2",
                "f3",
                "f4"
            ]
        }
    }
}

在这里插入图片描述
可以看到匹配的fields越多则越靠前。

其他特殊的情况分析。

  • 如果没有任何匹配的field则不会匹配返回,如下:
    在这里插入图片描述
  • 如果是field匹配的field数完全相同,且匹配的term数相同,则得分完全相同,如下:
DELETE news/

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "bb"}


POST /news/_search
{
    "query": {
        "multi_match": {
            "query": "aa bb",
            "type": "most_fields",
            "fields": [
                "f1",
                "f2",
                "f3",
                "f4"
            ]
        }
    }
}

在这里插入图片描述

  • 如果field匹配的field数完全相同,匹配的term越多,则得分越高,如下:
DELETE news/

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "aa bb"}


POST /news/_search
{
    "query": {
        "multi_match": {
            "query": "aa bb",
            "type": "most_fields",
            "fields": [
                "f1",
                "f2",
                "f3",
                "f4"
            ]
        }
    }
}

在这里插入图片描述
即匹配的field数优先,field数相同则按照总得分排优先级。

1.3:cross_field

这种匹配方式是将查询的字段作为一个整体来进行查询,每个要查询的词项都需要在文档中存在,才会匹配成功,如果是不使用multi_match的cross field的话我们也可以使用copy_to的方式,来将要查询的字段全部copy_to到同一个字段中,然后对该段进行普通的查询,如下:

DELETE news/
PUT news
{
    "mappings": {
        "properties": {
            "f1": {
                "type": "text",
                "copy_to": "f_full"
            },
            "f2": {
                "type": "text",
                "copy_to": "f_full"
            },
            "f3": {
                "type": "text",
                "copy_to": "f_full"
            }
        }
    }
}

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 3}}
{"f1":"aa", "f2": "bb", "f3": "cc"}

POST /news/_search
{
    "query": {
        "match": {
            "f_full": {
                "query": "aa bb cc",
                "operator": "and"
            }
        }
    }
}

在这里插入图片描述
查询的是在f_full中包含aa,bb,cc的文档,但是copy_to的方式有一个缺点就是,会增加磁盘的负担,如果是使用cross_field可以等效的解决这个问题,如下:

DELETE news/
PUT news
{
    "mappings": {
        "properties": {
            "f1": {
                "type": "text",
                "copy_to": "f_full"
            },
            "f2": {
                "type": "text",
                "copy_to": "f_full"
            },
            "f3": {
                "type": "text",
                "copy_to": "f_full"
            }
        }
    }
}

POST news/_bulk
{"index": {"_id": 1}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 2}}
{"f1":"aa", "f2": "bb"}
{"index": {"_id": 3}}
{"f1":"aa", "f2": "bb", "f3": "cc"}

POST /news/_search
{
    "query": {
        "multi_match": {
            "query": "aa bb cc",
            "type": "cross_fields",
            "fields": [
                "f1",
                "f2",
                "f3"
            ],
            "operator": "and"
        }
    },
    "profile": "true"
}

在这里插入图片描述
通过profile可以看到查询的方式是+(f2:aa | f3:aa | f1:aa) +(f2:bb | f3:bb | f1:bb) +(f2:cc | f3:cc | f1:cc),因为operator是and,所以同sql(f1 like '%aa%' or f2 like '%aa%' or f3 like '%aa%') and (f1 like '%bb%' or f2 like '%bb%' or f3 like '%bb%') and (f1 like '%cc%' or f2 like '%cc%' or f3 like '%cc%'),同样的如果是将operator改为or,则同sql(f1 like '%aa%' or f2 like '%aa%' or f3 like '%aa%') or (f1 like '%bb%' or f2 like '%bb%' or f3 like '%bb%') or (f1 like '%cc%' or f2 like '%cc%' or f3 like '%cc%')

写在后面

参考文章列表

ES中的Multi_match深入解读:best_fields、most_fields、cross_fields用法一览

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值