elasticsearch-analysis-ik中文分词插件安装及配置Ik自定义词典+拼音分词

本文详细介绍了如何在Elasticsearch 7.5.1版本上安装IK分词器,包括自动和手动两种方式,并强调了IK分词器的两种模式:ik_smart和ik_max_word。此外,还讲解了如何配置IK分词器以支持远程热词更新,并安装了拼音分词插件,以增强中文处理能力。最后,提供了配置文件示例和重启ES的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字。而IK分词器对中文的支持比较好,主要有两种模式"ik_smart""ik_max_word"

安装IK分词器

方法一: 自动安装IK分词器

注意: 必须保证centos系统是联网的。

IK分词器的 GitHub 地址,选择跟自己的Elasticsearch对应的版本,本文使用的版本是Elasticsearch7.5.1版本。

更多版本地址

找到IK分词器的7.5.1的地址然后使用elasticsearch-plugin命令安装:

# ./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.5.1/elasticsearch-analysis-ik-7.5.1.zip
-> Downloading https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.5.1/elasticsearch-analysis-ik-7.5.1.zip
[=================================================] 100%   
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@     WARNING: plugin requires additional permissions     @
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
* java.net.SocketPermission * connect,resolve
See http://docs.oracle.com/javase/8/docs/technotes/guides/security/permissions.html
for descriptions of what these permissions allow and the associated risks.

Continue with installation? [y/N]y
-> Installed analysis-ik
#查看安装的插件
# ./elasticsearch-plugin list
analysis-ik

方法二: 手动安装IK分词器

1.下载

在这里插入图片描述

2.上传到服务器

然后解压到elasticsearch目录,将ik文件夹放在elasticsearch/plugins目录下,重启elasticsearch
在这里插入图片描述
ik_smart:会做最粗粒度的拆分,比如会将"中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂"。

ik_max_word:比如会将"中华人民共和国人民大会堂" 拆分为"中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂"等词语。

配置Ik自定义词典

官网

编辑配置文件,因每次修改词典都需要重启 ES,为解决这不现实的操作,打开远程扩展字典,让支持热词更新

vim /usr/local/elasticsearch/config/analysis-ik/IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict"></entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords"></entry>
        <!--用户可以在这里配置远程扩展字典 -->
        <entry key="remote_ext_dict">http://www.xxx.com/es_dic/dic.txt</entry>
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

第一次配置需要重启 ES

nginx下配置如下

server {
      ......
        location /es_dic {
               charset utf-8;
               root   /data/web/dic/;
         }
}

这样就可以实现远程热词更新了!

安装拼音分词

# ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v7.5.1/elasticsearch-analysis-pinyin-7.5.1.zip

安装后重启es

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT_狂奔者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值