Elasticsearch学习笔记(三)安装hanlp中文分词插件及同义词配置

本文介绍了如何在Elasticsearch中安装和配置hanlp分词插件,包括在线和离线安装方法,并详细讲解了同义词的配置过程,以提升中文分词的准确性。
摘要由CSDN通过智能技术生成

hanlp分词插件

HanLP是一款免费开源(Apache License 2.0协议)中文语义分词工具,它提供中文分词、词性标注、命名实体识别、依存句法分析、语义依存分析、新词发现、关键词短语提取、自动摘要、文本分类聚类、拼音简繁转换、自然语言处理等功能。
Elasticsearch hanlp分词插件是基于HanLP开发的Elasticsearch分词插件,能够提供中文语义分词,词性标注等功能。
Elasticsearch默认的分词插件只支持英文,中文的分词效果比较差,目前比较热门的中文分词插件有ik分词、jieba分词、hanlp分词几种,重准确率、性能等方面来说hanlp还是比较有优势的详细信息可以看这里中文分词器对比

插件安装

Elasticsearch插件安装方式有两种,在线安装、离线安装

在线安装

进入Elasticsearch安装目录比如 /usr/share/elasticsearch/, 执行命令:

[root@eda525b6199e elasticsearch]# cd /usr/share/elasticsearch
[root@eda525b6199e elasticsearch]#./bin/elasticsearch-plugin install https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases/download/v7.5.0/elasticsearch-analysis-hanlp-7.5.0.zip

其中的版本号做对应修改,一般和Elasticsearch版本号保存一致,安装成功后验证

[root@eda525b6199e elasticsearch]#./bin/elasticsearch-plugin list

显示如下,表示安装成功

[root@eda525b6199e elasticsearch]# ./bin/elasticsearch-plugin list
analysis-hanlp

此时我们可以在Elasticsearch的安装目录下的plugins目录下看到一个名问analysis-hanlp文件夹

离线安装

首先下载Elasticsearch hanlp插件安装包,下载地址网盘密码i0o7, 下载和Elasticsearch一样得版本
安装
将下载好的zip文件放到指定目录,如果/usr/share/elasticsearch/目录,通过下述命令安装

[root@eda525b6199e elasticsearch]# cd /usr/share/elasticsearch
[root@eda525b6199e elasticsearch]#./bin/elasticsearch-plugin install file:/usr/share/elasticsearch/elasticsearch-analysis-hanlp-7.5.0.zip

file: 后面是zip文件的绝对路径,否则安装可能不成功。
安装成功后验证方式和在线安装一样

安装数据包

Hanlp是基于语义的分词,采用机器学习算法,通过机器学习算法采集出大量的数据文件,直接安装的插件只包含默认的数据包,如果需要安装完整的数据包,可以从

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值