Elasticsearch模糊查询

Elasticsearch模糊查询

前缀查询原理

不计算相关度评分

前缀搜索匹配的是term,而不是field。即搜索倒排索引

前缀搜索的性能很差

前缀搜索没有缓存

前缀搜索尽可能把前缀长度设置的更长命中索引越少,性能会好

要注意分词器,如果分词器分词了会导致前缀匹配失败.尤其是中文要设置中文分词器

前缀索引示例

// 创建prefix索引; 索引最大最小长度
//含义:对词项继续创建倒排索引. 指的是比如一个词Elasticsearch, el建一个倒排索引,ela再建一个,根据你的min和max; 索引的基础上继续创建索引,浪费空间,提高性能;

前缀索引要注意分词;


##没有分词的前缀索引查询
POST /my_index1/_bulk?filter_path=items.*.error
{"index":{"_id":"1"}} 
{"text":"城管打电话喊商贩去摆摊摊"} 
{"index":{"_id":"2"}} 
{"text":"笑果文化回应商贩老农去摆摊"} 
{"index":{"_id":"3"}} 
{"text":"老农耗时17年种出椅子树"} 
{"index":{"_id":"4"}} 
{"text":"夫妻结婚30多年AA制,被城管抓"} 
{"index":{"_id":"5"}} 
{"text":"黑人见义勇为阻止抢劫反被铐住"}
GET my_index1/_search
{
  "query": {
    "prefix": {
      "text": {
        "value": "城管"
      }
    }
  }
}


##有中文分词的前缀索引
##filter_path=items.*.error 这个表示只显示错误信息
##设置mapping 先把mapping模板查出来
DELETE my_index2
GET my_index2/_mapping
PUT my_index2
{
  "mappings": {
    "properties": {
      "text": {
        "type": "text",
        "analyzer": "ik_max_word",
        // 创建prefix索引; 索引最大最小长度
        //含义:对词项继续创建倒排索引. 指的是比如一个词Elasticsearch, el建一个倒排索引,ela再建一个,根据你的min和max; 索引的基础上继续创建索引,浪费空间,提高性能; 
        "index_prefixes": {
          "min_chars":2,
          "max_chars":4
        },
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      }
    }
  }
}
POST /my_index2/_bulk?filter_path=items.*.error
{"index":{"_id":"1"}} 
{"text":"城管打电话喊商贩去摆摊摊"} 
{"index":{"_id":"2"}} 
{"text":"笑果文化回应商贩老农去摆摊"} 
{"index":{"_id":"3"}} 
{"text":"老农耗时17年种出椅子树"} 
{"index":{"_id":"4"}} 
{"text":"夫妻结婚30多年AA制,被城管抓"} 
{"index":{"_id":"5"}} 
{"text":"黑人见义勇为阻止抢劫反被铐住"}
GET my_index2/_search
GET my_index2/_search
{
  "query": {
    "prefix": {
      "text": {
        "value": "城管"
      }
    }
  }
}

通配符 willward

通配符也匹配的是term

##英文通配符数据
POST /product_en/_bulk?filter_path=iterm.*.error
{"index":{"_id":"1"}}
{"title":"my english","desc":"shouji zhong de zhandouji","price":3999,"tags":["xingjiabi","fashao","buka","1"]}
{"index":{"_id":"2"}}
{"title":"xiaomi nfc phone","desc":"zhichi quangongneng nfc,shouji zhong de jianjiji","price":4999,"tags":["xingjiabi","fashao","gongjiaoka","asd2fgas"]}
{"index":{"_id":"3"}}
{"title":"nfc phone","desc":"shouji zhong de hongzhaji","price":2999,"tags":["xingjiabi","fashao","menjinka","as345"]}
{"title":{"_id":"4"}}
{"text":"xiaomi erji","desc":"erji zhong de huangmenji","price":999,"tags":["low","bufangshui","yinzhicha","4dsg"]}
{"index":{"_id":"5"}}
{"title":"hongmi erji","desc":"erji zhong de kendeji","price":399,"tags":["lowbee","xuhangduan","zhiliangx","sdg5"]}

GET product_en/_search
{
  "query": {
    "wildcard": {
      // 加keyword和不加是有区别
      "title.keyword": {
        "value": "nfc*"
      }
    }
  }
}

上边代码加keyword和不加是有区别的, keyword是不会分词的,field是会分词的

正则

flags

指的是允许使用正则表达式中哪些通配符

ALL

启用所有可选操作符。

COMPLEMENT

启用操作符。可以使用对下面最短的模式进行否定。例如

a~bc # matches 'adc' and 'aec' but not 'abc'

INTERVAL

启用<>操作符。可以使用<>匹配数值范围。例如

foo<1-100> # matches 'foo1', 'foo2' ... 'foo99', 'foo100'
foo<01-100> # matches 'foo01', 'foo02' ... 'foo99', 'foo100'

INTERSECTION

启用&操作符,它充当AND操作符。如果左边和右边的模式都匹配,则匹配成功。例如:

aaa.+&.+bbb # matches 'aaabbb'

ANYSTRING

启用@操作符。您可以使用@来匹配任何整个字符串。
您可以将@操作符与&和~操作符组合起来,创建一个“everything except”逻辑。例如:

@&~(abc.+) # matches everything except terms beginning with 'abc'

模糊查询

主要是解决你输入错误能智能纠错的功能,本质也是模糊查询

常见的如:

缺少字符/多字符/混淆字符(输入错了)/顺序颠倒

语法

GET <index>/_search
{
  "query": {
    "fuzzy": {
      "<field>": {
        "value": "<keyword>"
      }
    }
  }
}

value必输项

数据实测

比如你有如下数据:

    "hits" : [
      {
        "_index" : "product_en",
        "_type" : "_doc",
        "_id" : "2",
        "_score" : 0.8829135,
        "_source" : {
          "title" : "xiaomi nfc phone",
          "desc" : "zhichi quangongneng nfc,shouji zhong de jianjiji",
          "price" : 4999,
          "tags" : [
            "xingjiabi",
            "fashao",
            "gongjiaoka",
            "asd2fgas"
          ]
        }
      }
    ]

以下查询 都可以查出数据

GET product_en/_search
{
  "query": {
    "fuzzy": {
      "title": {
        //         "value": "xiaoi"
        //         "value": "mixiao"
        // "ixaomi"
        "value": "xiaohi"
      }
    }
  }
}

召回率优化

根据以上原理我们知道, 输入错误的数量是有限制的. 那么哪里限制的? 怎么修改? 设置多少合适呢

我们输入错几个字符可以匹配呢?

把错误的字符修正成正确需要的步骤数量,称为编辑距离. 这距离计算跟特定的计算公式有关系:

两段文本之间的Damerau-Levenshtein距离是使一个字符串与另一个字符串匹配所需的插入、删除、替换和调换的数量
距离公式:lucene使用Levenshtein算法,es使用改进版Damerau-Levenshtein,
如axe=>aex不同算法需要步骤: Levenshtein=2 Damerau-Levenshtein=1

这个距离越大允许错的字符就越多.

但是这个距离并非越大越好,越大召回率越高,但是召回率高不代表准确,也许更不准确了.

ES默认的编辑距离编辑距离,(0,1,2)

模糊查询的几个参数

value: 必须,关键词

fuzziness: 可选,定义编辑距离,es默认(0,1,2);可以设置"AUTO",es会根据字符串长度动态的取值.

transpositions:(可选,布尔值)指示编辑是否包括两个相邻字符的变位(ab→ba)。默认为true。影响某些编辑距离的计算结果.true的话是改进版对换距离为1,如果false就变为2了.

GET product_en/_search
{
  "query": {
    "fuzzy": {
      "title": {
        "value": "ixaomi",
        //"fuzziness": "AUTO"
        "fuzziness": 5
      }
    }
  }
}

match_phase

性能差

基本要求

  • match phase会被分词
  • 匹配要求: 搜索词和源数据的分词顺序一致; 中间不能又其他词

匹配原理

允许搜索词最后一个词项作为前缀再次检索

匹配流程:

最后一个词项作为前缀,匹配所有词->再使用搜索词剩余前缀再次前缀匹配

整个过程比较耗费性能的.

示例

abc cde fg比如用这个词作为短语匹配的搜索词,它首先找以fg开头的满足的所有词项,在这些词项中再去匹配abc cde开头的.

match_phrase_prefix与match_phrase

match_phrase_prefix与match_phrase相同,但是它多了一个特性,就是它允许在文本的最后一个词项(term)上的前缀匹配,

如果是一个单词,比如a,它会匹配文档字段所有以a开头的文档;

如果是一个短语,比如 “it is horse” ,他会先在倒排索引中做以horse做前缀搜索,然后在匹配到的doc中做match_phrase查询

性能调优

如何避免匹配词过多呢?

可以使用max_expentions.这个参数默认值是50

这里尤其要注意max_expentions=1时并不代表实际返回结果就是1个. 这里的1每个分片限制的数量, 如果有多个分片的话每个分片都可能匹配到一个(如果匹配不到就没办法了)

词序颠倒召回率调优

使用参数slop

测试脚本




GET product_en/_search
{
  "query": {
    "match_phrase": {
      "desc": "shouji zhong de"
    }
  }
}

GET product_en/_search
##test expansions
##验证虽然max_expansions=1但是依然返回了多个结果
GET product_en/_search
{
  "query": {
    "match_phrase_prefix": {
      "desc": {
        "query": "shouji zhong",
        "max_expansions": 1
      }
    }
  }
}


##test slop
##
GET product_en/_search
{
  "query": {
    "match_phrase_prefix": {
      "desc": {
        //源数据"shouji zhong de hongzhaji",搜索词:"shouji hongzhaji"时slop=2是可以的slop=1就不行了
        //除了上面间隔词项,顺序颠倒也可以的,搜索词:"de zhong hongzhaji"
        "query": "de zhong shouji hongzhaji",
        "max_expansions": 50
        ,"slop": 5
      }
    }
  }
}

ngram & edge-ngram

可以用作切词方式

ngram是按照字符进行切词

根据如下代码查看效果:

GET _analyze
{
  "tokenizer": "ngram",
  "text": ["abc def opq"]
}

具体怎么切词可以通过min_gram max_gram来控制

作为过滤器

##也可以过滤器
GET _analyze
{
  "tokenizer": "standard",
  "filter": ["ngram"], 
  "text": ["abc def opq"]
}

一个分析器包含

  • 字符过滤器(Character Filters):用于在分词之前对原始文本进行预处理,如HTML标签的去除、字符替换等。
  • 分词器(Tokenizer):将原始文本按照一定的规则进行切分,生成词条(Terms)。常见的分词器有标准分词器(Standard Tokenizer)、简单分词器(Simple Tokenizer)、正则表达式分词器(Pattern Tokenizer)等。
  • 词条过滤器(Token Filters):对切分后的词条进行进一步处理,如小写转换、去除停用词、词干提取等。
  • 字符映射过滤器(Character Mapping Filter):用于字符的映射转换,如大小写转换、字符替换等。

ngram代码测试

##test data
POST /test_idx_001/_bulk 
{ "index": { "_id": "1"} } 
{ "text": "my english" } 
{ "index": { "_id": "2"} } 
{ "text": "my english is good" } 
{ "index": { "_id": "3"} } 
{ "text": "my chinese is good" } 
{ "index": { "_id": "4"} } 
{ "text": "my japanese is nice" } 
{ "index": { "_id": "5"} } 
{ "text": "my disk is full" }

DELETE test_idx_001
PUT test_idx_001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer":{
          "type": "custom",
          "tokenizer":"standard",
          "filter": "my_filter_ngram"
        }
      },
      "tokenizer": {},
      "filter": {
        "my_filter_ngram":{
          "type": "ngram",
          "min_gram":2,
          "max_gram":3
        }
      },
      "char_filter": {}
    }
  },
  "mappings": {
    "properties": {
      "myproperties":{
        "type": "text",
        "analyzer": "my_analyzer",
        "search_analyzer": "standard"
      }
    }
  }
}

测试ngram个数

##test data
POST /test_idx_001/_bulk 
{ "index": { "_id": "1"} } 
{ "text": "my english" } 
{ "index": { "_id": "2"} } 
{ "text": "my english is good" } 
{ "index": { "_id": "3"} } 
{ "text": "my chinese is good" } 
{ "index": { "_id": "4"} } 
{ "text": "my japanese is nice" } 
{ "index": { "_id": "5"} } 
{ "text": "my disk is full" }

DELETE test_idx_001
PUT test_idx_001
{
  "settings": {
    "analysis": {
      "filter": {
        "my_filter_ngram": {
          "type": "edge_ngram",
          "min_gram": 2,
          "max_gram": 3
        }
      },
      "analyzer": {
        "my_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": "my_filter_ngram"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "text": {
        "type": "text",
        "analyzer": "my_analyzer",
        "search_analyzer": "standard"
      }
    }
  }
}

GET test_idx_001/_search
GET test_idx_001/_search
{
  "query": {
    "match_phrase": {
      //这里的每个词项必须在2,3范围内因为分词就是按照这个数量分词的,这数量是在上面定义的
      //比如你输入engl就查不到数据了
      "text": "my eng is goo"
    }
  }
}

ngram如果设置的过小会占用大量的磁盘空间,因为它会创建很多倒排索引

edge-ngram测试

edge-ngram会节省空间

edge与ngram的区别在于它只对前N个字母生成索引.具体:

比如my english 我们设置min_gram=2;max_gram=3; 它只会对my eng进行索引;

ngram会对my, my空格, 空格e, 空格en, eng,…等等依次做索引

即ngram不仅前缀,还可以中缀搜索

DELETE test_idx_001
PUT test_idx_001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer":{
          "type": "custom",
          "tokenizer": "standard",
          "filter": "myfitler"
        }
      },
      "filter": {
        "myfitler":{
          "type":"edge_ngram",
          "min_gram": 2,
          "max_gram": 3
        }
      },
      "tokenizer": {}
    }
  },
  "mappings": {
    "properties": {
      "text":{
        "type": "text", 
        "analyzer": "my_analyzer",
        "search_analyzer": "standard"
      }
    }
  }
}
GET test_idx_001/_search
{
  "query": {
    "match_phrase": {
      "text": "my eng"
    }
  }
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 好的,Elasticsearch 中的模糊查询可以通过使用模糊查询(Fuzzy Query)和通配符查询(Wildcard Query)来实现。 1. 模糊查询(Fuzzy Query):模糊查询是指在搜索时根据查询条件中的一个词来匹配文档中的一个或多个词,而不是完全匹配该查询条件。模糊查询可以通过使用 “fuzzy” 查询来实现,例如: ``` GET /my_index/_search { "query": { "fuzzy": { "title": { "value": "quick" } } } } ``` 在上面的查询中,会匹配包含 “quick” 以及类似于 “quack”、“quicker”、“quickest” 等单词的文档。 2. 通配符查询(Wildcard Query):通配符查询是指在搜索时使用通配符来匹配文档中的一个或多个词。通配符查询可以通过使用 “wildcard” 查询来实现,例如: ``` GET /my_index/_search { "query": { "wildcard": { "title": { "value": "qu*" } } } } ``` 在上面的查询中,会匹配包含以 “qu” 开头的单词的文档,如 “quick”、“quality”、“question” 等。 需要注意的是,使用模糊查询和通配符查询会影响搜索性能,因此在使用时需要谨慎。同时,Elasticsearch 中还有其他类型的查询,可以根据具体情况选择使用。 ### 回答2: ElasticSearch是一个开源的搜索引擎,拥有强大的全文搜索和分析能力。在ElasticSearch中,模糊查询是一种常见的查询类型,用于找到与指定的搜索词或短语相似或相关的文档。 在ElasticSearch中,模糊查询可以通过使用通配符、模糊匹配、近似匹配和相似度匹配等方式实现。通配符查询可以使用通配符符号(*或?)匹配多个字符或单个字符。模糊匹配则使用模糊符号(~)指示查询应该接受的编辑距离,从而找到与搜索词相似但不完全匹配的文档。 另外,近似匹配允许搜索在单词之间添加或删除字符,以便更好地匹配查询词。相似度匹配则是利用TF-IDF算法计算词项的相对权重,从而找到与搜索词相似度最高的文档。 为了进行模糊查询,需要使用ElasticSearch提供的查询DSL语句。在查询语句中,可以使用模糊查询子句(fuzzy)指定需要进行模糊查询的字段和搜索词,以及匹配的模糊程度等参数。 不过需要注意的是,模糊查询可能会导致查询时间延长和性能下降,特别是在大数据集下。因此,在使用模糊查询时,需要权衡查询的结果精确性和查询性能之间的平衡。 总而言之,ElasticSearch模糊查询提供了灵活的搜索功能,可以帮助用户找到与搜索词相似或相关的文档。但在使用模糊查询时,需要根据具体情况选择合适的查询方式,并注意查询性能的优化。 ### 回答3: Elasticsearch是一个开源的搜索引擎,它提供了丰富的查询功能,包括模糊查询模糊查询是一种在搜索过程中允许存在一定的匹配误差的查询方式。 在Elasticsearch中,我们可以使用模糊查询来处理那些可能存在拼写错误或者其他差异的搜索请求。使用模糊查询可以找到与搜索关键词相似的文档,即使这些文档可能与搜索关键词不完全匹配。 Elasticsearch提供了多种方式来实现模糊查询。其中一种方式是使用模糊匹配查询(fuzzy match query)。通过指定一个最大编辑距离(max_edit_distance),我们可以控制模糊查询的容忍度。编辑距离指的是将一个词语转换成另一个词语所需要的最少操作次数(插入、删除、替换)。 另一种实现模糊查询的方式是使用通配符查询(wildcard query)。通配符查询支持在搜索关键词中使用通配符符号(*或?),表示匹配任意字符(*)或者匹配单个字符(?)。 另外,通过使用编辑距离相似度(edit distance similarity)计算,Elasticsearch还可以为搜索结果打分。这意味着匹配度较高的文档将排在搜索结果列表的前面。 综上所述,Elasticsearch模糊查询功能可以帮助我们处理那些可能存在一定误差的搜索请求,提高搜索的准确性和召回率。通过合理选择最大编辑距离、使用通配符和应用编辑距离相似度计算,我们可以灵活地控制模糊查询的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值