下载IK分词器:https://github.com/medcl/elasticsearch-analysis-ik/releases
必须跟elasticsearch版本一致,可以选择版本下载,没有对应版本可以翻页找找看
开始安装
Windows下安装:
1.在elasticsearch的plugins目录下创建名为ik的目录;
2.再将下载的elasticsearch-analysis-ik-7.6.2.zip压缩包解压到这个新创建的ik目录下,只需要elasticsearch-analysis-ik-7.6.2.zip下的内容,不需要再生成一个elasticsearch-analysis-ik-7.6.2文件夹,如图所示:
Linux下安装同理:
单节点与Windows相同操作
集群:
1.停止集群中所有机器的elasticsearch进程,在所有机器上做这些操作:在elasticsearch的plugins目录下创建名为ik的目录,再将下载的elasticsearch-analysis-ik-7.6.2.zip压缩包复制到这个新创建的ik目录下;
2.在elasticsearch-analysis-ik-7.6.2.zip所在文件夹下,执行目录unzip elasticsearch-analysis-ik-7.6.2.zip进行解压;
3.确认elasticsearch-analysis-ik-7.6.2.zip已经复制到每个elasticsearch的plugins/ik目录下并解压后,将所有elasticsearch启动 ;
elasticsearch head上测试:
POST desktop_message/_analyze
{
"text": "我是测试分词",
"analyzer": "ik_max_word"
}
desktop_message为索引名称
1、ik_max_word
会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
2、ik_smart
会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。
结果:
{
"tokens": [
{
"token": "我",
"start_offset": 0,
"end_offset": 1,
"type": "CN_CHAR",
"position": 0
},
{
"token": "是",
"start_offset": 1,
"end_offset": 2,
"type": "CN_CHAR",
"position": 1
},
{
"token": "测试",
"start_offset": 2,
"end_offset": 4,
"type": "CN_WORD",
"position": 2
},
{
"token": "分词",
"start_offset": 4,
"end_offset": 6,
"type": "CN_WORD",
"position": 3
}
]
}
结果截图: