hanlp分词插件
HanLP是一款免费开源(Apache License 2.0协议)中文语义分词工具,它提供中文分词、词性标注、命名实体识别、依存句法分析、语义依存分析、新词发现、关键词短语提取、自动摘要、文本分类聚类、拼音简繁转换、自然语言处理等功能。
Elasticsearch hanlp分词插件是基于HanLP开发的Elasticsearch分词插件,能够提供中文语义分词,词性标注等功能。
Elasticsearch默认的分词插件只支持英文,中文的分词效果比较差,目前比较热门的中文分词插件有ik分词、jieba分词、hanlp分词几种,重准确率、性能等方面来说hanlp还是比较有优势的详细信息可以看这里中文分词器对比
插件安装
Elasticsearch插件安装方式有两种,在线安装、离线安装
在线安装
进入Elasticsearch安装目录比如 /usr/share/elasticsearch/, 执行命令:
[root@eda525b6199e elasticsearch]# cd /usr/share/elasticsearch
[root@eda525b6199e elasticsearch]#./bin/elasticsearch-plugin install https://github.com/KennFalcon/elasticsearch-analysis-hanlp/releases/download/v7.5.0/elasticsearch-analysis-hanlp-7.5.0.zip
其中的版本号做对应修改,一般和Elasticsearch版本号保存一致,安装成功后验证
[root@eda525b6199e elasticsearch]#./bin/elasticsearch-plugin list
显示如下,表示安装成功
[root@eda525b6199e elasticsearch]# ./bin/elasticsearch-plugin list
analysis-hanlp
此时我们可以在Elasticsearch的安装目录下的plugins目录下看到一个名问analysis-hanlp文件夹
离线安装
首先下载Elasticsearch hanlp插件安装包,下载地址网盘密码i0o7, 下载和Elasticsearch一样得版本
安装
将下载好的zip文件放到指定目录,如果/usr/share/elasticsearch/目录,通过下述命令安装
[root@eda525b6199e elasticsearch]# cd /usr/share/elasticsearch
[root@eda525b6199e elasticsearch]#./bin/elasticsearch-plugin install file:/usr/share/elasticsearch/elasticsearch-analysis-hanlp-7.5.0.zip
file: 后面是zip文件的绝对路径,否则安装可能不成功。
安装成功后验证方式和在线安装一样
安装数据包
Hanlp是基于语义的分词,采用机器学习算法,通过机器学习算法采集出大量的数据文件,直接安装的插件只包含默认的数据包,如果需要安装完整的数据包,可以从