elastic search中前缀搜索，通配符搜索，正则搜索的使用

最新推荐文章于 2024-08-27 07:45:00 发布

hsj1213522415

最新推荐文章于 2024-08-27 07:45:00 发布

阅读量1.1k

点赞数

分类专栏： elastic search

elastic search 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

本文介绍了Elasticsearch中前缀搜索、通配符搜索和正则搜索的原理及应用场景。前缀搜索性能较差，扫描整个倒排索引；通配符搜索同样性能低下；正则搜索类似于match_phrase，但允许最后一个term作为前缀。此外，还提到了prefix query和filter的区别，以及如何通过max_expansions限制性能。

摘要由CSDN通过智能技术生成

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "title": {
          "type": "keyword"
        }
      }
    }
  }
}

GET my_index/my_type/_search
{
  "query": {
    "prefix": {
      "title": {
        "value": "C3"
      }
    }
  }
}

前缀搜索原理浅析：

1、扫描整个倒排索引，举例说明：

比如说match

match

C3-D0-KD345
C3-K5-DFG65
C4-I8-UI365

全文检索

每个字符串都需要被分词

c3			doc1,doc2
d0
kd345
k5
dfg65
c4
i8
ui365

c3 --> 扫描倒排索引 --> 一旦扫描到c3，就可以停了，因为带c3的就2个doc，已经找到了 --> 没有必要继续去搜索其他的term了

实际场景中，可能有些场景是全文检索解决不了的

C3D0-KD345
C3K5-DFG65
C4I8-UI365

c3 --> 先扫描到了C3D0-KD345，很棒，找到了一个前缀带c3的字符串 --> 还是要继续搜索的，因为后面还有一个C3-K5-DFG65，也许还有其他很多的前缀带c3的字符串 --> 你扫描到了一个前缀匹配的term，不能停，必须继续搜索 --> 直到扫描完整个的倒排索引，才能结束

所以prefix性能很差！！！

prefix query不计算relevance score，与prefix filter唯一的区别就是，filter会cache bitset

通配符搜索

GET my_index/my_type/_search
{
  "query": {
    "wildcard": {
      "title": {
        "value": "C?K*5"
      }
    }
  }
}

?：任意字符
*：0个或任意多个字符

性能一样差，必须扫描整个倒排索引

正则搜索

GET /my_index/my_type/_search 
{
  "query": {
    "regexp": {
      "title": "C[0-9].+"
    }
  }
}

C[0-9].+

[0-9]：指定范围内的数字
[a-z]：指定范围内的字母
.：一个字符
+：前面的正则表达式可以出现一次或多次

搜索推荐

GET /my_index/my_type/_search 
{
  "query": {
    "match_phrase_prefix": {
      "title": "hello d"
    }
  }
}

原理跟match_phrase类似，唯一的区别，就是把最后一个term作为前缀去搜索；

也可以指定slop，但是只有最后一个term会作为前缀

max_expansions：指定prefix最多匹配多少个term，超过这个数量就不继续匹配了，限定性能

hsj1213522415

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录