Hanlp添加未登陆词

本人使用的是maven导入portable版的hanlp

<!-- hanlp -->
    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.7.5</version>
    </dependency>

里面只含有少量数据,对于一些高级功能(CRF分词、句法分析等),则需要下载额外的数据包,并通过配置文件将数据包的位置告诉Hanlp。

安装过pyhanlp

如果你是安装过pyhanlp 的话,则数据包和配置文件已经安装就绪,可以通过hanlp -v命令查看hanlp.properties文件的位置,hanlp.properties是我们所需的配置文件,我们只需要讲它复制到项目的资源目录 src/main/resources即可(如果没有该目录,手动创建一个即可)

创建resources目录

手动创建resources的步骤:

步骤1:原项目结构图

步骤2:项目右键properties,然后如下一直操作

步骤3:勾选

步骤4:可以看见新建了resources目录

步骤5:最终项目结构图

此时Hanlp就会从/usr/local/lib/python3.6/site-packages/pyhanlp/static记载data,也就是说与pyhanlp公用用一套数据包。

没有安装过pyhanlp

如果使用maven直接配置Hanlp的话,没找到可以使用自定义词典的方法,所以导入hanlp-1.7.2.jar包进行配置。

1.下载jar、data、hanlp.properties。下载地址为https://github.com/hankcs/HanLP,下载后解压缩到一个目录中,比如D:/hanlp

2.在hanlp.properties中修改root地址,为data包的上一级目录。

3.将hanlp.properties放到项目的resources目录中即可。

4.在\data\dictionary\custom文件夹中创建自己的词典,txt格式,utf8编码,形式为词条-空格-词性。(也可以直接在CustomDictionary.txt中添加未登陆词)

5.第一次使用自定义词典前将缓存文件CustomDictionary.txt.bin删除,否则自定义词典不会生效。

6.在hanlp.properties中修改自定义词典路径,将自己的词典加入。
将hanlp.properties的第一行root设为data文件夹的父目录:

root=D:/hanlp

下面第一个词条是手动添加的未登陆词

下面是测试结果

在未加入该登陆词前结果是

[江/ns, 州市/n, 长江大桥/nz, 参加/v, 了/ul, 长江大桥/nz, 的/uj, 通车/v, 仪式/n]

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值