IK分词器-自定义分词算法与自定义分词配置

最新推荐文章于 2024-08-02 10:42:09 发布

梦想不会灭

最新推荐文章于 2024-08-02 10:42:09 发布

阅读量5.2k

点赞数 3

分类专栏： ElasticSearch 文章标签：算法 elasticsearch 搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cm15835106905/article/details/124617510

版权

ElasticSearch 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、分词的概念

分词：就是把我们要查询的数据拆分成一个个关键字，我们在搜索时，ElasticSearch会把数据进行分词，然后做匹配。默认的中文分词器会把每一个中文拆分，比如“迪丽热巴”，会拆分成“迪”，“丽”，“热”，“巴”，显然，这并不符合我们的要求，所以ik分词器（中文分词器）能解决这个问题。

二、IK分词器的分词算法

ik分词器存在两种分词算法：

ik_smart：称为智能分词，网上还有别的称呼：最少切分，最粗粒度划分
ik_max_word：称为最细粒度划分

三、分词算法测试

1、ik_smart 最少切分策略

GET _analyze
{
  "analyzer": "ik_smart",
  "text": "中华人民共和国"
}

在这里插入图片描述

2、ik_max_word 最细粒度划分策略

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "中华人民共和国"
}

在这里插入图片描述

3、两种分词算法的对比

确实在ik分词器中，ik_smart和ik_max_word的分词有明显区别
可以看到，IK分词器穷尽词库的可能，切分成了几个词

我们再修改下分词的text

GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "我爱迪丽热巴"
}

分词结果如下：
在这里插入图片描述
由上面的分词结果可以发现，"迪丽热巴"是一个明星的名字，有时候，我们在分词的时候并不想拆分他们，只想"迪丽热巴"作为一个关键字进行搜索。
解决方法如下：
将不希望进行分词的词，需要我们自己加入到分词器的字典中。

四、自定义分词配置

找到ElasticSearch的安装目录下的plugin目录，下面有ik分词器的相关配置，
找到config目录，打开IKAnalyzer.cfg.xml文件，可以自定义分词配置
在这里插入图片描述

我在配置文件中加了一个 ;pms_knowledge.dic(注意：多个分词配置用分号隔开)
现在还要自己写一个pms_knowledge.dic字典
在IKAnalyzer.cfg.xml文件同级目录下创建一个pms_knowledge.dic，里面添加上不想被分词的词，此处以“迪丽热巴”为例。
在这里插入图片描述
保存退出，重启es，再次运行之前的语句，得出结果如下：

可以看到，“迪丽热巴”没有被分词

梦想不会灭

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。