ElasticSearch原理(系列)- match_phrase、match、prefix、wildcard比较

match

GET /my_index/address/_search
{
    query: {match:"hello world"}
}

句子中包含helloworld的都会被搜索出,比如下面的句子都会被搜索到:

1.hello tom, do you know me
2.see the world

match_phrase

GET /my_index/address/_search
{
    query: {match_phrase:"hello world"}
}

也就是说hello world 必须相邻才能被搜索出来,比如下面的句子:

1.Hello World tom, do you know me // 能搜到
2.see the world // 搜不到
3.Hello tom // 搜不到

match_phrase slop

GET /my_index/address/_search
{
    query: {match_phrase:{content:"hello world", slop: 2}}
}

可以通过指定slot来控制移动词数。这里中间间隔的词数<2才能搜到。对于下面的例子:

1.hello world // 能搜到
2.hello es world // 能搜索到
3.hello tom es world // 不能搜到
4.hello lity do my world // 搜不到 3>2

match_phrase原理

match_phrase执行过程:
1.如match搜索一样进行分词,
2.对分词后的单词到field中去进行搜索(多个term匹配)。这一步返回每个单词对应的doc,并返回这些单词在对应的doc中的位置,
3.对返回的doc进行第一步的筛选,找到每个单词都在同一个field的doc。
4.对第3步进行筛选后的doc进行再一次的筛选,选回位置符合要求的doc。比如,对于match_phrase,就是找到后一个单词的位置比前一个单词的位置大1。或者移动次数<slot的文档。
5.proximity match(使用slot)原理一样,只是第四位对位置进行筛选时的方法不同。

比如要搜索“hello world”

  1. 分词为 hello 和 world
  2. 分别对term hello和world去搜索。返回两者匹配到的文档。
  3. 第一次筛选,取两个的交集。
  4. 继续筛选,对于match_phrase,就是找到后一个单词world的位置比前一个单词hello的位置大1的文档

prefix

前缀搜索
它会对分词后的term进行前缀搜索。

  • 它不会分析要搜索字符串,传入的前缀就是想要查找的前缀
  • 默认状态下,前缀查询不做相关度分数计算,它只是将所有匹配的文档返回,然后赋予所有相关分数值为1。它的行为更像是一个过滤器而不是查询。两者实际的区别就是过滤器是可以被缓存的,而前缀查询不行。
  • 只能找到反向索引中存在的术语

prefix的原理:
需要遍历所有倒排索引,并比较每个term是否已所指定的前缀开头。
比如:

Term:          Doc IDs:
-------------------------
"SW50BE"    |  5
"W1F7HW"    |  3
"W1V3DG"    |  1
"W2F8HW"    |  2
"WC1N1LZ"   |  4
-------------------------

GET /my_index/address/_search
{
    "query": {
        "prefix": {
            "postcode": "W1"
        }
    }
}

prefix原理

prefix搜索过程:
为了支持前缀匹配,查询会做以下事情:

  1. 扫描术语列表并查找到第一个以 W1 开始的术语。
  2. 搜集关联的ID
  3. 移动到下一个术语
  4. 如果这个术语也是以 W1 开头,查询跳回到第二步再重复执行,直到下一个术语不以 W1 为止。

如果以w1开头的term很多,那么会有严重的性能问题。但是如果term比较小集合,可以放心使用。

wildcard

模糊查询

  • 工作原理和prefix相同,只不过它在1不是只比较开头,它能支持更为复杂的匹配模式。
  • 它使用标准的 shell 模糊查询:? 匹配任意字符,* 匹配0个或多个字符。
    GET /my_index/address/_search
    {
        "query": {
            "regexp": {
                "postcode": "W[0-9].+" #1
            }
        }
    }
    

这也意味着我们需要注意与前缀查询中相同的性能问题,执行这些查询可能会消耗非常多的资源,所以我们需要避免使用左模糊这样的模式匹配(如,foo 或 .foo 这样的正则式)

注意:
prefix、wildcard 和 regrep 查询是基于术语操作的,如果我们用它们来查询分析过的字段(analyzed field),他们会检查字段里面的每个术语,而不是将字段作为整体进行处理。

match_phrase_prefix

实时模糊搜索
这种查询的行为与 match_phrase 查询一致,但是它将查询字符串的最后一个词作为前缀(prefix)使用。

比如:

{
    "match_phrase_prefix" : {
        "brand": "johnnie walker bl"
    }
}

下面的句子可能被搜索到:

  • johnnie walker blll
  • johnnie walker bl33
  • johnnie walker blyu

查询步骤:

  • johnnie walker
  • 跟着 一个以 bl 开始的词(prefix)

与 match_phrase 一样,它也可以接受 slop 参数让相对词序位置不那么严格:

{
    "match_phrase_prefix" : {
        "brand" : {
            "query": "walker johnnie bl", #1
            "slop":  10
        }
    }
}

下面的句子可能被搜索到:

  • johnnie ee walker blll
  • johnnie aa walker bl33
  • johnnie cc gg walker blyu

我们可以通过设置 max_expansions 参数来限制前缀扩展的影响,一个合理的值是可能是50:

{
    "match_phrase_prefix" : {
        "brand" : {
            "query":"johnnie walker bl",
            "max_expansions": 50
        }
    }
}

参数max_expansions控制着可以与前缀匹配的术语的数量

另一个即时搜索的方法是,使用 Ngram部分匹配, 这种方法会增加索引的开销,但是会加快查询速度。具体可以自行查阅。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Elasticsearch 是一个开源搜索引擎,它提供了多种查询方式。 match_phrase: 是短语匹配,它会把查询的文本作为一个整体来匹配,保证匹配的文本顺序一致。 wildcard: 通配符匹配,可以使用 * 和 ? 匹配任意字符。 match: 是文本匹配,它会对查询的文本进行分词,然后匹配分词后的文本。 总结: match_phrase: 短语匹配 wildcard: 通配符匹配 match: 文本匹配 三者在查询时使用场景不同,根据需求选择不同查询方式。 ### 回答2: Elasticsearch是一种开源的搜索引擎,可以实现高效的全文搜索和分析。在Elasticsearch中,match_phrasewildcardmatch是三种不同的查询方式,它们之间有以下区别: 1. match_phrase(短语匹配):match_phrase是一种精确短语匹配查询,它可以匹配包含指定词组的文档。match_phrase查询将文本拆分为词项,然后按照给定词序进行匹配。例如,当使用match_phrase查询搜索“quick brown fox”时,只有包含这个词组并按照这个顺序出现的文档才会被返回。 2. wildcard(通配符查询):wildcard是一种基于通配符的模糊查询,用于匹配满足指定模式的文档。通配符可以使用“*”匹配任意字符序列,或者使用“?”匹配单个字符。例如,当使用wildcard查询搜索“br?wn”时,可以匹配到“brown”或“br0wn”等词项。 3. match(字段匹配):match是一种基于字段的查询方式,用于匹配指定字段中包含指定关键词的文档。match查询默认会进行分词处理,将搜索词分割为词项,并在指定字段的倒排索引中进行匹配。例如,当使用match查询搜索“quick brown”时,可以匹配到包含这两个词的文档,不要求词序。 总而言之,match_phrase是一个完全匹配词组的查询方式,而wildcard可以进行模糊匹配,而match是基于字段的分词匹配。根据实际需求和查询的灵活性要求,可以选择适当的查询方式来满足搜索需求。 ### 回答3: 在Elasticsearch中,match_parse、wildcardmatch都是用于查询的不同方式。 首先,match_parse是一种全文检索查询,它将搜索关键词作为一个短语进行处理。它会对搜索关键词进行分析和处理,然后返回与搜索关键词最匹配的文档。例如,当搜索关键词是"quick brown fox"时,match_parse会将其视为一个短语,并搜索包含该短语的文档。 其次,wildcard是一种通配符查询,它可以通过使用通配符(如*或?)来匹配文档中的任意字符。它主要用于查找具有相似模式或形式的文档。例如,当搜索关键词是"qu*ck"时,wildcard会匹配到诸如"quick"、"quack"或"quarterback"等单词。 最后,match是一种基于字段的查询方式。它会对字段的值进行分析和处理,然后与搜索关键词进行匹配。它支持模糊匹配和纠错功能,可以根据搜索关键词的相似度进行匹配。例如,当搜索关键词是"quick brown foks"时,match会自动尝试纠正拼写错误,并匹配到包含诸如"quick", "brown"或"fox"等单词的文档。 综上所述,match_parse是一种全文检索查询,它将搜索关键词作为一个短语来处理;wildcard是一种通配符查询,用于匹配具有相似模式的文档;而match是一种基于字段的查询,支持模糊匹配和纠错功能。它们在匹配方式、搜索关键词处理和查询类型等方面略有不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值