ElasticSearch之mapping分词器选择

最新推荐文章于 2022-10-23 20:53:13 发布

小老犇

最新推荐文章于 2022-10-23 20:53:13 发布

阅读量2.9k

点赞数 4

分类专栏： ElasticSearch 文章标签： elasticsearch ik分词器分词器选择默认分词器分词算法

本文链接：https://blog.csdn.net/numbbe/article/details/109663565

版权

19 篇文章 0 订阅

订阅专栏

前言

市场上分词器，眼花缭乱，让你一脸懵逼。

···········································································

可以看到分词器非常多，其实我们只需要关注两个就可以了。

1、standard

2、ik分词器

大家常说ElasticSearch中内置的分词器standard，更确切的说是Lucene内置的，ES是Lucene提供支持的。

IK分词器有两种分词模式：ik_max_word和ik_smart模式。

最细粒度的查询，分出的词条最多。

最粗粒度的查询，大体切分一下，分出的词条比较少。

举个例子，我们对下面这句话进行分词，分别使用三种算法，大家先猜测一下结果

万里长城是中国的象征。

使用es内置standard分词算法：

在这里插入图片描述
使用ik_max_word分词算法：

使用ik_smart分词算法：
在这里插入图片描述
话不多说，很明显的可以看到区别。

有一种说法是，创建索引时使用ik_max_word分词器，最大程度上进行分词，搜索时使用id_smart分词器，保持准确度。

第二种说法是，创建索引使用的分词器和搜索时使用的分词器必须对应，保持一致，否则会导致搜索冲突。

到底哪种是对的呢？

我，小老犇，两个都不招惹，我说第三种说法，哈哈

首先，明确两个操作

1、创建索引时指定分词器，我们这个字段所有的内容都会被分词后存入分片中。

2、搜索时指定分词器，我们的关键字会被分词，然后进ES分片中进行匹配，倒排索引机制。

其次，一定要在创建mapping的时候指定分词器，不要使用默认的分词器。

这种操作的结果就是，你在查询的时候，不用指定分词器了，还是同样使用默认的分词器吧。使用其他分词器的话，结果就乱了。

最后，第一种方法想的挺美好的，似乎有那么点道理，但有可能会出问题，搜索出来的结果有问题，稳妥一点，按第二种方法来，创建mapping时指定分词器和查询事指定的分词器，保持一致。

这里有的人说了，我没有保持一致，搜索出来的结果照样没问题啊。
有以下几种可能：
1、你索引库的内容和全文检索的字段内容挺少的
2、创建mapping时用的什么分词器
3、查询时用了什么分词器，分词器组合有好几种，可能就碰巧了。

我也遇到过没有保持一致，但是搜索结果没问题的情况，但最好还是保持一致。

······················································································
关于分词器的问题，可以一起讨论，有啥不一样的想法私信我或者评论区都可以。

关注