使用 Elasticsearch 的 NGram 分词器处理模糊匹配

最新推荐文章于 2024-07-24 09:13:12 发布

weixin_34323858

最新推荐文章于 2024-07-24 09:13:12 发布

阅读量2.3k

点赞数

文章标签：大数据数据库 ui

原文链接：https://yq.aliyun.com/articles/109431

版权

本文介绍了如何使用 Elasticsearch 的 NGram 分词器来处理模糊匹配，以解决用户输入部分支行名称或拼音首字母时，快速返回相应银行支行的搜索需求。虽然数据库支持通配符查询，但作者发现 Elasticsearch 结合 NGram 分词器能更高效地完成任务，避免了通配符查询的性能问题。通过设置字段 analyzer 为 ngram_analyzer，实现了类似通配符查询的效果，提高了搜索效率。

摘要由CSDN通过智能技术生成

接到一个任务：用 Elasticsearch 实现搜索银行支行名称的功能。大概就是用户输入一截支行名称或拼音首字母，返回相应的支行名称。比如，用户输入"工行"或者"gh"，我需要返回"工行XXX分行"类似这样的结果。

我心里嘀咕着：数据库不是支持通配符查询吗？为什么不直接用数据库查询？

说归说，但是任务还是要完成的。之前有在网上看过一篇文章，主要就是说用 Elasticsearch 处理通配符查询不太适合，然后我在评论中看到作者推荐了一个分词器 NGram。

这个分词器可以让通配符查询和普通的查询一样迅速，因为该分词器在数据索引阶段就把所有工作做完了：

An n-gram can be best thought of as a moving window on a word. The n stands for a length. If we were to n-gram the word quick, the results would depend on the length we have chosen:

Length 1 (unigram): [ q, u, i, c, k ]
Length 2 (bigram): [ qu, ui, ic, ck ]
Length 3 (trigram): [ qui, uic, ick ]
Length 4 (four-gram): [ quic, uick ]
Length 5 (five-gram): [ quick ]```
若要使用 NGram 分词器作为某个字段的分词器，可在索引创建时指定，也可以更新映射关系，以下展示如何在索引创建时指定 NGram 分词器。

{
"settings