【ES】ES 7.6 fuzzy 搜索 (模糊搜索)

560 篇文章 548 订阅 ¥79.90 ¥99.00
本文介绍了Elasticsearch中的模糊搜索(Fuzzy Query),通过设置fuzziness属性,允许搜索中存在错别字。详细讲解了match查询的fuzziness选项,如'0', '1', '2'和'auto',并结合实例展示了如何进行模糊查询,以及编辑距离的概念。模糊查询在处理拼写错误时能提供匹配结果,但可能带来较高的CPU开销和较低的精度。" 125084681,9979918,uwsgi启动django配置及nginx整合指南,"['django', 'nginx', 'python', 'web服务器']
摘要由CSDN通过智能技术生成

本文为博主九师兄(QQ:541711153 欢迎来探讨技术)原创文章,未经允许博主不允许转载。

可以加我问问题,免费解答,有问题可以先私聊我,本人每天都在线,会帮助需要的人。

但是本博主因为某些原因,心灰意冷了,决心打死不写免费了。不想解释了。。


在这里插入图片描述

1.概述

转载:https://www.cnblogs.com/sanduzxcvbnm/p/12085219.html

在实际的搜索中,我们有时候会打错字,从而导致搜索不到。在Elasticsearch中,我们可以使用fuzziness属性来进行模糊查询,从而达到搜索有错别字的情形。

match查询具有“fuziness”属性。它可以被设置为“0”, “1”, “2”或“auto”。“auto”是推荐的选项,它会根据查询词的长度定义距离。

2.Fuzzy query

返回包含与搜索词相似的词的文档,以Levenshtein编辑距离测量。

编辑距离是将一个术语转换为另一个术语所需的一个字符更改的次数。 这些更改可以包括:

更改字符(box→fox)
删除字符(black→lack)
插入字符(sic→sick)
转置两个相邻字符(act→cat

为了找到相似的词,模糊查询会在指定的编辑距离内创建搜索词的所有可能变化或扩展的集合。 查询然后返回每个扩展的完全匹配。

3.例子

我们首先输入如下的一个文档到fuzzyindex索引中:

PUT fuzzyindex/_doc/1
{
  "content": "I like blue sky"
}

如果这个时候,我们进行如下的搜索:

GET fuzzyindex/_search
{
  "query": {
    "match": {
      "content": "ski"
    }
  }
}

那么是没有任何被搜索到的结果,这是因为“I like blue sky" 里分词后没有ski这个词。

{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 0,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  }
}

这个时候,如果我们使用如下的搜索:

GET fuzzyindex/_search
{
  "query": {
    "match": {
      "content": {
        "query": "ski",
        "fuzziness": "1"
      }
    }
  }
}

那么显示的结果是:

{
  "took" : 18,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.19178805,
    "hits" : [
      {
        "_index" : "fuzzyindex",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.19178805,
        "_source" : {
          "content" : "I like blue sky"
        }
      }
    ]
  }
}

显然是找到我们需要的结果了。这是因为sky和ski时间上是只差别一个字母。

同样,如果我们选用“auto”选项看看:

GET fuzzyindex/_search
{
  "query": {
    "match": {
      "content": {
        "query": "ski",
        "fuzziness": "auto"
      }
    }
  }
}

它显示的结果和上面的是一样的。也可以进行匹配。

如果我们进行如下的匹配:

   GET fuzzyindex/_search
    {
      "query": {
        "match": {
          "content": {
            "query": "bxxe",
            "fuzziness": "auto"
          }
        }
      }
    }

那么它不能匹配任何的结果,但是,如果我们进行如下的搜索:

GET fuzzyindex/_search
{
  "query": {
    "match": {
      "content": {
        "query": "bxxe",
        "fuzziness": "2"
      }
    }
  }
}

我们也可以使用如下的格式:

  GET /_search
    {
        "query": {
            "fuzzy": {
                "content": {
                    "value": "bxxe",
                    "fuzziness": "2"
                }
            }
        }
    }

那么它可以显示搜索的结果,这是因为我们能够容许两个编辑的错误。

模糊性是拼写错误的简单解决方案,但具有很高的CPU开销和非常低的精度。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值