es中文分词插件mac_Elasticsearch 中文分词器插件-CSDN博客

本文链接：https://blog.csdn.net/weixin_39609887/article/details/111849118

本文介绍了Elasticsearch（ES）默认分词器对中文处理的问题，阐述了为何需要安装中文分词插件，重点讲述了如何安装和使用IK分词器，包括ik_max_word和ik_smart两种分词模式。还详细说明了如何自定义扩展字典，包括本地和远程字典的配置，以解决特殊词汇的分词问题。

摘要由CSDN通过智能技术生成

ES 中默认的分词器是 Standard Analyzer，会对文本内容按单词分类并进行小写处理，但是主要是用于处理英文的，对中文的分词处理就非常不友好了。理解了分词，自己去做搜索的时候就会少一些为什么搜索的结果和预期不符的疑惑。

1、为什么需要中文分词器插件

先使用 Kibana 测试 ES 默认分词器对英文的处理：

GET _analyze

{

"text": "Hello World"

}

结果如下：

所以 ES 默认分词器对英文的处理是符合预期的，同时大写字母也被转为小写。

但是对中文的处理呢？

GET _analyze

{

"text": "你好世界"

}

很显然无法对中文正确的分词。那这样又会导致什么问题呢？

我们先创建一个test索引，并添加几条文档数据：

PUT test

POST test/_doc

{

"content": "Hello World"

}

POST test/_doc

{

"content": "你好世界"

}

POST test/_doc

{

"content": "好好学习"

}

操作完成后，可以在 head 工具中看到如下数据：

我们先通过hello来查询数据：

GET test/_search

{

"query": {

"match": {

"content": "hello"

}

查询结果如下，可以得到预期的数据：

再查询你好试试：

GET test/_search

{

"query": {

"match": {

"content": "你好"

}

结果如下，我们期望只查出你好世界，但好好学习也被查出来了，原因是就查询时你好被分词成了你、好两个字，而不是一个完整的词。由于我们没有设置分词器，使用的是默认的分词器，所以在保存文档数据时content字段的中文内容也会被分词成单个字，并生成索引，查询时会使用被分词后的关键字去content生成的索引中匹配，自然会匹配出多条文档数据：

所以问题很明显了，由于使用了 ES 默认的分词器，导致查询中文时不能按照我们的预期得到想要的结果，所以我们一般都会单独安装中文分词器插件，ES 中使用比较多的中文分词器插件是elasticsearch-analysis-ik，简称 IK 分词器。

2、安装 IK 分词器

它的原码托管在 GitHub 上，主页地址 https://github.com/medcl/elasticsearch-analysis-ik。需要注意的是，不同版本的 IK 分词器对应的 ES 版本是不同的，我们的 ES 使用的是7.9.3版本，下载对应版本的 IK 分词器即可。安装比较简单可以参考如下步骤：

在每个 ES 节点安装目录的 plugins 文件夹下创建名为 ik 的文件夹，并将下载好的分词器压缩包解压到里边

重启 ES 服务

IK 分词器有如下两种分词模式：

ik_max_word，会对文本做最细粒度的拆分，尽可能拆分出多的词。一个字段的值需要被全文检索式，可以在创建索引时设置字段的分词模式指定为ik_max_word，这样字段内容会被最大化的分词进而生成对应的索引，这样对应的文档能更准确的被检索到。

ik_smart，会对文本做最粗粒度的拆分，拆分出的词相对会少些。一般检索时可以设置关键字的分词模式为ik_smart，这样能更准确的检索到预期的结果。

3、测试

首先我们测试使用 IK 分词器后的分词效果：

GET _analyze

{

"analyzer": "ik_smart",

"text": "你好世界"

}