4、Elasticsearch:IK分词器插件

4.1、什么是IK分词器

分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如“我爱你"会被分为"我”"爱”“你”,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。

如果要使用中文,建议使用ik分词器!

IK提供了两个分词算法: ik_ smart 和ik_ max_word ,其中ik._smart 为最少切分! ik_max_word为最细粒度划分!

4.2、安装

  1. https://github.com/medcl/elasticsearch-analysis-ik
  2. 下载完毕之后,放入到我们的elasticsearch插件即可!

在这里插入图片描述

  1. 重启观察ES,可以看到ik分词器被加载了
    在这里插入图片描述
  2. elasticsearch-plugin 可以通过这个命令来查看加载进来的插件
    在这里插入图片描述
  3. 使用kibana测试!

ik._smart 为最少切分
在这里插入图片描述
ik_max_word为最细粒度划分!穷尽词库的可能!字典!
在这里插入图片描述
我们输入超级喜欢陈托尼
在这里插入图片描述
发现问题:陈托尼被拆开了!

这种自己需要的词,需要自己加到我们的分词器的字典给中!

4.3、ik_max_word和 ik_smart的区别

1、ik_max_word

会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。

2、ik_smart
会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

4.4、IK分词器增加自己的配置

  1. 在ik分词器的配置文件下编写一个chen.dic
    在这里插入图片描述
  2. 注入到扩展配置中
    在这里插入图片描述
  3. 重启ES,看细节
    在这里插入图片描述
    ik._smart
    在这里插入图片描述
    ik_max_word
    在这里插入图片描述
    以后的话,我们需要自己配置分词就在自己定义的dic文件中进行配置即可!

学习视频链接:https://www.bilibili.com/video/BV17a4y1x7zq?p=9

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值