架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库

ik中文分词器

1. 安装ik中文分词器(7.4.2版本)

  1. 上传zip文件到我们的服务器

在这里插入图片描述
2. 解压并放在elasticsearch的plugins的ik文件夹下

  • yum install -y unzip zip 安装zip工具
  • unzip elasticsearch-analysis-ik-7.4.2.zip -d /usr/local/elasticsearch-7.4.2/plugins/ik
    在这里插入图片描述
  1. 进入ES的ik目录下
  • cd /usr/local/elasticsearch-7.4.2/plugins/ik
    在这里插入图片描述
  1. 重新启动ES
  • jps
  • kill ***
  • su esuser
  • cd /usr/local/elasticsearch-7.4.2/bin
  • ./elasticsearch -d
    在这里插入图片描述

2. 使用ik中文分词器

2.1 分词器: ik_max_word

此分词器会将文本进行最细粒度的拆分, 比如将"中华人民共和国国歌"
拆分为"中华人民共和国",“中华人民”,“中华”,“华人”,“人民共和国”,“人民”,“人”,“民”,“共和国”,“共和”,“和”,“国国”,“国歌”
在这里插入图片描述
在这里插入图片描述

2.1 分词器: ik_smart

此分词器会将文本进行最粗粒度的拆分.
在这里插入图片描述

在这里插入图片描述

自定义中文词库

在我们使用ik分词器的时候, 随着时代的发展, 难免出现时代流行词语而ik分词器不识别的问题, 如下, 骚年, 慕课网并不能作为一个词汇的问题:
在这里插入图片描述

自定义词库, 导入字典

  1. 关闭ES: jps, kill xxx
  2. 进入ik的config中配置
    cd /usr/local/elasticsearch-7.4.2/plugins/ik/config/
    在这里插入图片描述
  3. 切换到root, 编辑配置文件IKAnalyzer
    su root
    vim IKAnalyzer.cfg.xml
    在这里插入图片描述
    在这里插入图片描述
  4. 创建custom.dic文件 vim custom.dic
    在这里插入图片描述
  5. 切换会esuser用户, 启动ES
    su esuser
    cd /usr/local/elasticsearch-7.4.2/bin/
    ./elasticsearch -d
    在这里插入图片描述
    在这里插入图片描述
评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_大木_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值