elasticsearch中国字(mmseg)——手动添加字典

elasticsearch中国文字本身并不是一个理想的插件效果。手动添加字典可以补偿在一定程度上。

后发现了几个实验,mmseg分段机制采用正向最长匹配算法。例如,抵抗“小时报”这个单词,其内置的字典中不包括字,因此,当用户搜索小的时间时。果。

在咸鱼老婆的虚心指导下,我最终找到了解决的方法。

手动加入该词到mmseg的词库中,有两种方法:

1、将该词增加到自带的某个词典中(非停顿词词典)。如words-my.dic。

2、新建一个自己定义词典,将其放入默认词库目录下。注意编码格式为以UTF-8无BOM格式编码。

(注意:假设将elasticsearch部署在集群时,对应的配置文件词典均需改动)

期间,咸鱼老婆一直对我循循善诱的指导,令我茅塞顿开。

同一时候,还不厌其烦的为我拨开我最爱的小桂圆,令我甚是感动。

相信若干年后。回味起解决手动加入词库问题的今晚,仍然会感到一股暖流涌上心头。

重新启动elasticsearch服务:elasticsearch restart

针对目标文件,又一次建立索引,搜索“小时代”,就可以查询到目标文件。

最后。再次感谢我亲爱的咸鱼老婆。撒狼黑色的!!

版权声明:本文博主原创文章,博客,未经同意不得转载。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值