es自建搜索词库_ES实战二十三、全文检索-ElasticSearch-分词-自定义扩展词库

最新推荐文章于 2024-07-16 11:25:26 发布

weixin_39740346

最新推荐文章于 2024-07-16 11:25:26 发布

阅读量352

点赞数

文章标签： es自建搜索词库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39740346/article/details/111527460

版权

接第22节

3)、自定义词库

ik 分词器默认的分词并不能满足我们的需求，对于一些新的网络用语，ik 分词器就会无法准确的进行分词识别，比如：

分词之后显示为如下，可以看到 ik 分词器无法识别出“乔碧萝”是一个人名：

所以，需要进行自定义拓展词库。要自定义拓展词库，可以修改 ik 分词器的配置文件，指定一个远程词库，让 ik 分词器向远程发送请求，要到一些最新的单词，这样最新的单词就会作为最新的词源进行分解。自定义词库有两种方式实现：

1、自己实现一个服务，处理 ik 分词器的请求，让 ik 分词器的给自定义的项目发送请求

2、搭建一个 nginx 服务器，将最新词库放到 nginx 中，让 ik 分词器给 nginx 发送请求，由 nginx 给 ik 分词器返回最新的词库，这样 ik 分词器就可以将原来的词库和新词库合并起来。

在这里我使用第二种方式来自定义词库，创建前需要先安装 nginx，请访问第六章有关内容。在 /mydata/nginx/html/ 路径下新建一个 es 目录，并新建一个词库 fenci.txt：

修改 /usr/share/elasticsearch/plugins/ik/config/ 中的 IKAnalyzer.cfg.xml

/usr/share/elasticsearch/plugins/ik/config

注意：如果打开 IKAnalyzer.cfg.xml 为乱码的话，可以在先退出当前文件，在命令行输入 vi /etc/virc，然后在文件添加 set encoding=utf-8，保存退出，重新打开 IKAnalyzer.cfg.xml 即可。

原来的xml：

重启 ES ：

重新在 kibana 中进行分词，可以看到之前无法识别的“乔碧萝”现在已经可以识别为一个单词了：

如果我们以后还有新的词组，直接在上面的自定义词库fenci.txt中进行添加，并重启 ES 即可。

由于之前在安装 nginx 时重装了 ES，所以需要设置一下 ES 的自动启动服务： docker update elasticsearch --restart=always

参考:

weixin_39740346

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。