ES-模糊查询

1. 前缀搜索:prefix
概念:以xx开头的搜索,不计算相关度评分。

注意:

前缀搜索匹配的是term(精确值查找),而不是field。
前缀搜索的性能很差
前缀搜索没有缓存
前缀搜索尽可能把前缀长度设置的更长

语法:
json GET <index>/_search 
{
    "query": {
        "prefix": {
            "<field>": {
                "value": "<word_prefix>"
            }
        }
    }
}
index_prefixes: 默认 "min_chars" : 2, "max_chars" : 5

通配符:wildcard

概念:通配符运算符是匹配一个或多个字符的占位符。例如,*通配符运算符匹配零个或多个字符。您可以将通配符运算符与其他字符结合使用以创建通配符模式。
注意:

通配符匹配的也是term,而不是field

语法:
json GET <index>/_search 
{
    "query": {
        "wildcard": {
            "<field>": {
                "value": "<word_with_wildcard>"
            }
        }
    }
}

正则:regexp

概念:regexp查询的性能可以根据提供的正则表达式而有所不同。为了提高性能,应避免使用通配符模式,如.或 .?+未经前缀或后缀
语法:
json GET <index>/_search 
{
    "query": {
        "regexp": {
            "<field>": {
                "value": "<regex>",
                "flags": "ALL"
                
            }
        }
    }
}
flags

ALL

启用所有可选操作符。

COMPLEMENT

启用操作符。可以使用对下面最短的模式进行否定。例如

a~bc # matches ‘adc’ and ‘aec’ but not ‘abc’

INTERVAL

启用<>操作符。可以使用<>匹配数值范围。例如

foo<1-100> # matches ‘foo1’, ‘foo2’ … ‘foo99’, ‘foo100’

foo<01-100> # matches ‘foo01’, ‘foo02’ … ‘foo99’, ‘foo100’

INTERSECTION

启用&操作符,它充当AND操作符。如果左边和右边的模式都匹配,则匹配成功。例如:

aaa.+&.+bbb # matches ‘aaabbb’

ANYSTRING

启用@操作符。您可以使用@来匹配任何整个字符串。 您可以将@操作符与&和~操作符组合起来,创建一个“everything except”逻辑。例如:

@&~(abc.+) # matches everything except terms beginning with ‘abc’

2. 模糊查询:fuzzy
混淆字符 (box → fox) 缺少字符 (black → lack)

多出字符 (sic → sick) 颠倒次序 (act → cat)

语法
json GET <index>/_search 
{
    "query": {
        "fuzzy": {
            "<field>": {
                "value": "<keyword>"
            }
        }
    }
}
参数:

value:(必须,关键词)

fuzziness:编辑距离,(0,1,2)并非越大越好,召回率高但结果不准确

  1. 两段文本之间的Damerau-Levenshtein距离是使一个字符串与另一个字符串匹配所需的插入、删除、替换和调换的数量

  2. 距离公式:Levenshtein是lucene的,es改进版:Damerau-Levenshtein,

axe=>aex Levenshtein=2 Damerau-Levenshtein=1

transpositions:(可选,布尔值)指示编辑是否包括两个相邻字符的变位(ab→ba)。默认为true

3. 短语前缀:matchphraseprefix

match_phrase:

match_phrase会分词
被检索字段必须包含match_phrase中的所有词项并且顺序必须是相同的
被检索字段包含的match_phrase中的词项之间不能有其他词项

概念:

​ matchphraseprefix与match_phrase相同,但是它多了一个特性,就是它允许在文本的最后一个词项(term)上的前缀匹配,如果 是一个单词,比如a,它会匹配文档字段所有以a开头的文档,如果是一个短语,比如 “this is ma” ,他会先在倒排索引中做以ma做前缀搜索,然后在匹配到的doc中做matchphrase查询,(网上有的说是先matchphrase,然后再进行前缀搜索, 是不对的)

参数

analyzer 指定何种分析器来对该短语进行分词处理
max_expansions 限制匹配的最大词项
boost 用于设置该查询的权重
slop 允许短语间的词项(term)间隔:slop 参数告诉 match_phrase 查询词条相隔多远时仍然能将文档视为匹配 什么是相隔多远? 意思是说为了让查询和文档匹配你需要移动词条多少次?

原理解析:https://www.elastic.co/cn/blog/found-fuzzy-search#performance-considerations

N-gram和edge ngram

tokenizer
json GET _analyze 
{
    "tokenizer": "ngram",
    "text": "reba always loves me"
}
token filter
json GET _analyze 
{
    "tokenizer": "ik_max_word",
    "filter": [
        "ngram"
    ],
    "text": "reba always loves me"
}
min_gram:创建索引所拆分字符的最小阈值
max_gram:创建索引所拆分字符的最大阈值
ngram:从每一个字符开始,按照步长,进行分词,适合前缀中缀检索
edge_ngram:从第一个字符开始,按照步长,进行分词,适合前缀匹配场景
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在Elasticsearch中,可以使用模糊查询来查找包含与搜索术语相似的文档。Elasticsearch提供了不同类型的模糊查询: 1. 通配符查询(Wildcard Query):使用通配符匹配查询关键字中的任何字符,*代表零个或多个字符,?代表一个字符。 例如,要查找包含单词"colours"的文档,可以使用通配符查询:"colo*" 2. 正则表达式查询(Regular Expression Query):使用正则表达式匹配查询关键字中的任何字符。 例如,要查找包含单词"color"或"colour"的文档,可以使用正则表达式查询:"/colou?r/" 3. 模糊查询(Fuzzy Query):通过模糊匹配查询关键字中的单词来查找文档。模糊查询使用编辑距离算法计算相似度。 例如,要查找包含单词"color"或"colour"的文档,可以使用模糊查询:"color~1",其中1表示编辑距离为1。 4. 模糊匹配查询(Match Query with Fuzziness):与模糊查询类似,但是可以使用match查询来搜索特定字段。 例如,要在标题字段中查找包含单词"color"或"colour"的文档,可以使用模糊匹配查询:"match": { "title": { "query": "color", "fuzziness": "1" } },其中fuzziness表示编辑距离为1。 请注意,模糊查询可能会导致搜索结果的数量大大增加,因此建议使用时谨慎。 ### 回答2: Elasticsearch是一个开源的分布式搜索和分析引擎,提供强大的全文搜索功能。在Elasticsearch中,模糊查询是一种可以匹配包含部分关键词的搜索查询。 Elasticsearch模糊查询主要通过两种方式实现:通配符查询和模糊查询。 通配符查询使用通配符符号(*)来匹配任意字符或字符序列。例如,如果我们想要找到包含以"el"开头的单词,我们可以使用查询字符串"el*"进行模糊查询。这将匹配到"elastic"、"elephant"等单词。通配符查询虽然强大,但是它的性能相对较低并且不会被缓存,因此在实际使用中应该谨慎使用。 另一种模糊查询的方式是使用模糊查询语法。模糊查询可以通过添加模糊符号(~)来匹配指定相似度的单词。例如,如果我们想要找到包含类似于"elastic"的单词,我们可以使用查询字符串"elastic~"进行模糊查询模糊查询默认的相似度是0.5,如果我们想要调整相似度,可以使用~后面添加一个介于0和1之间的小数来指定。 除了以上两种方式,Elasticsearch还提供了其他一些模糊查询的功能,如正则表达式查询、模糊匹配和距离匹配等。这些功能可以根据具体的需求进行使用,提供更精确的模糊查询结果。 总而言之,Elasticsearch模糊查询功能可以通过通配符查询和模糊查询语法来实现,可以根据具体的需求选择合适的方式进行查询。模糊查询搜索引擎中常用的一种查询方式,可以帮助用户找到包含部分关键词的相关文档。 ### 回答3: Elasticsearch是一个开源搜索引擎,具有强大的模糊查询功能。模糊查询是指在搜索过程中,允许用户进行模糊匹配,以便找到与查询条件相似的结果。 在Elasticsearch中,模糊查询可以通过使用通配符、近似匹配或模糊匹配来实现。以下是几种常见的模糊查询方法: 1. 通配符查询:可以使用通配符符号(*)表示任意字符或字符序列。例如,如果想要搜索包含"elast"开头的单词,可以使用通配符查询"elast*"。 2. 近似匹配:Elasticsearch可以使用编辑距离算法进行近似匹配。编辑距离是通过添加、删除或替换一个字符来将一个字符串转换为另一个字符串所需的最小操作次数。可以通过设置fuzziness参数来控制模糊度,从而实现近似匹配。例如,可以搜索与"elastic"相似(编辑距离为1)的单词,使用模糊查询"elastic~1"。 3. 模糊匹配:模糊匹配是一种使用模糊度来匹配查询条件的方法。可以通过设置fuzziness参数来控制模糊度的程度。例如,使用模糊查询"elastic"可以匹配到类似"eleastic"或"elasstic"的单词。 值得注意的是,模糊查询可能会导致搜索结果的准确性下降,因为它允许不严格匹配。因此,在使用模糊查询时需要权衡结果的准确性和查询的覆盖范围。 总之,Elasticsearch模糊查询功能可以通过通配符、近似匹配和模糊匹配来实现。这些功能可以灵活地满足用户对模糊查询的需求,并在搜索过程中提供更好的匹配和相关性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值