ElasticSearch7.6 IK分词器(三)

一、什么是IK分词器?

分词:即把一段中文或英文划分成一个个的关键字,我们在搜索时会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作。默认的中文分词是将每个字看成一个词,比如“今天真快乐”被分成今、天、真、快、乐,显然不符合要求,所以我们需要安装IK中文分词器,根据配置的.dic字典文件来进行分词。

IK提供了两个分词算法:ik_smart 最少切分,ik_max_word 最细粒度划分。

二、IK分词器的安装

  1. 下载ik,解压放到ES的插件文件夹中。
    在这里插入图片描述

  2. 以管理员方式启动ES,观察IK分词器插件被加载了!如果访问ik失败,观察路径是否有空格,会被特殊编码。
    在这里插入图片描述
    (可以使用elasticsearch-plugin命令来查看加载进来的插件)

  3. 使用kibana测试不同的分词效果
    ik_smart 为最少切分,就相当于断句,每个词只出现一次。
    在这里插入图片描述
    ik_max_word为最细粒度划分,按配置的字典词库来划分,穷尽所有可能的词组合,每个字可以出现多次。
    在这里插入图片描述
    我们可以自己配置字典词库,按照我们的配置来划分词!

  • 在ik配置文件夹中,加入自己的字典库myword.dic
  • 进入IKAnalyzer.cfg.xml填上自己配置的字典库
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值