es 模糊查询

最新推荐文章于 2024-08-30 16:46:11 发布

jojoRey

最新推荐文章于 2024-08-30 16:46:11 发布

阅读量4.4k

点赞数 1

分类专栏： # elasticsearch 中间件文章标签： es elasticsearch 中间件

本文链接：https://blog.csdn.net/qq_38146392/article/details/121399656

版权

中间件同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

elasticsearch

15 篇文章 2 订阅

订阅专栏

模糊查询

前缀搜索：prefix

概念：以xx开头的搜索，不计算相关度评分。

注意：
- 前缀搜索匹配的是term，而不是field。
- 前缀搜索的性能很差
- 前缀搜索没有缓存
- 前缀搜索尽可能把前缀长度设置的更长
语法：
```
GET <index>/_search
{
  "query": {
    "prefix": {
      "<field>": {
        "value": "<word_prefix>"
      }
    }
  }
}
index_prefixes: 默认   "min_chars" : 2,   "max_chars" : 5 
```
通配符：wildcard

概念：通配符运算符是匹配一个或多个字符的占位符。例如，*通配符运算符匹配零个或多个字符。您可以将通配符运算符与其他字符结合使用以创建通配符模式。

注意：
- 通配符匹配的也是term，而不是field
语法：
```
GET <index>/_search
{
  "query": {
    "wildcard": {
      "<field>": {
        "value": "<word_with_wildcard>"
      }
    }
  }
}
```
正则：regexp

概念：regexp查询的性能可以根据提供的正则表达式而有所不同。为了提高性能，应避免使用通配符模式，如.或 .?+未经前缀或后缀

语法：
```
GET <index>/_search
{
  "query": {
    "regexp": {
      "<field>": {
        "value": "<regex>",
        "flags": "ALL",
      }
    }
  }
}
```
flags
- ALL
  
  启用所有可选操作符。
- COMPLEMENT
  
  启用_{操作符。可以使用}对下面最短的模式进行否定。例如
  
  a~bc # matches ‘adc’ and ‘aec’ but not ‘abc’
- INTERVAL
  
  启用<>操作符。可以使用<>匹配数值范围。例如
  
  foo<1-100> # matches ‘foo1’, ‘foo2’ … ‘foo99’, ‘foo100’
  
  foo<01-100> # matches ‘foo01’, ‘foo02’ … ‘foo99’, ‘foo100’
- INTERSECTION
  
  启用&操作符，它充当AND操作符。如果左边和右边的模式都匹配，则匹配成功。例如:
  
  aaa.+&.+bbb # matches ‘aaabbb’
- ANYSTRING
  
  启用@操作符。您可以使用@来匹配任何整个字符串。
  您可以将@操作符与&和~操作符组合起来，创建一个“everything except”逻辑。例如:
  
  @&~(abc.+) # matches everything except terms beginning with ‘abc’
模糊查询：fuzzy

混淆字符 (box → fox) 缺少字符 (black → lack)

多出字符 (sic → sick) 颠倒次序 (act → cat)

语法
```
GET <index>/_search
{
  "query": {
    "fuzzy": {
      "<field>": {
        "value": "<keyword>"
      }
    }
  }
}
```
参数：
- value：（必须，关键词）
- fuzziness：编辑距离，（0，1，2）并非越大越好，召回率高但结果不准确
  1. 两段文本之间的Damerau-Levenshtein距离是使一个字符串与另一个字符串匹配所需的插入、删除、替换和调换的数量
  2. 距离公式：Levenshtein是lucene的，es改进版：Damerau-Levenshtein，
  axe=>aex Levenshtein=2 Damerau-Levenshtein=1
- transpositions：（可选，布尔值）指示编辑是否包括两个相邻字符的变位（ab→ba）。默认为true。
短语前缀：match_phrase_prefix

match_phrase：
- match_phrase会分词
- 被检索字段必须包含match_phrase中的所有词项并且顺序必须是相同的
- 被检索字段包含的match_phrase中的词项之间不能有其他词项
概念：

match_phrase_prefix与match_phrase相同,但是它多了一个特性,就是它允许在文本的最后一个词项(term)上的前缀匹配,如果是一个单词,比如a,它会匹配文档字段所有以a开头的文档,如果是一个短语,比如 “this is ma” ,他会先在倒排索引中做以ma做前缀搜索,然后在匹配到的doc中做match_phrase查询,(网上有的说是先match_phrase,然后再进行前缀搜索, 是不对的)

参数
- analyzer 指定何种分析器来对该短语进行分词处理
- max_expansions 限制匹配的最大词项
- boost 用于设置该查询的权重
- slop 允许短语间的词项(term)间隔：slop 参数告诉 match_phrase 查询词条相隔多远时仍然能将文档视为匹配什么是相隔多远？意思是说为了让查询和文档匹配你需要移动词条多少次？
原理解析：https://www.elastic.co/cn/blog/found-fuzzy-search#performance-considerations
N-gram和edge ngram

tokenizer
```
GET _analyze
{
  "tokenizer": "ngram",
  "text": "reba always loves me"
}
```
token filter
```
GET _analyze
{
  "tokenizer": "ik_max_word",
  "filter": [ "ngram" ],
  "text": "reba always loves me"
}
```
min_gram：创建索引所拆分字符的最小阈值

max_gram：创建索引所拆分字符的最大阈值

ngram：从每一个字符开始,按照步长,进行分词,适合前缀中缀检索

edge_ngram：从第一个字符开始,按照步长,进行分词,适合前缀匹配场景