4、Elasticsearch：IK分词器插件

最新推荐文章于 2024-10-18 13:45:48 发布

很皮的皮蛋瘦肉粥

最新推荐文章于 2024-10-18 13:45:48 发布

阅读量155

点赞数

分类专栏： ElasticSearch 文章标签： elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cxycxytony/article/details/108433006

版权

ElasticSearch 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章目录

4.1、什么是IK分词器
4.2、安装
4.3、ik_max_word和 ik_smart的区别
4.4、IK分词器增加自己的配置

4.1、什么是IK分词器

分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如“我爱你"会被分为"我”"爱”“你”,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。

如果要使用中文，建议使用ik分词器!

IK提供了两个分词算法: ik_ smart 和ik_ max_word ,其中ik._smart 为最少切分! ik_max_word为最细粒度划分!

4.2、安装

https://github.com/medcl/elasticsearch-analysis-ik
下载完毕之后，放入到我们的elasticsearch插件即可！

在这里插入图片描述

重启观察ES，可以看到ik分词器被加载了
elasticsearch-plugin 可以通过这个命令来查看加载进来的插件
使用kibana测试！

ik._smart 为最少切分
在这里插入图片描述
ik_max_word为最细粒度划分！穷尽词库的可能！字典！

我们输入超级喜欢陈托尼

发现问题：陈托尼被拆开了！

这种自己需要的词，需要自己加到我们的分词器的字典给中！

4.3、ik_max_word和 ik_smart的区别

1、ik_max_word

会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。

2、ik_smart
会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

4.4、IK分词器增加自己的配置

在ik分词器的配置文件下编写一个chen.dic
注入到扩展配置中
重启ES，看细节

ik._smart

ik_max_word

以后的话，我们需要自己配置分词就在自己定义的dic文件中进行配置即可！

学习视频链接：https://www.bilibili.com/video/BV17a4y1x7zq?p=9

很皮的皮蛋瘦肉粥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。