【Java学习笔记三】使用自定义词典进行Hanlp分词

如果使用maven直接配置Hanlp的话,没找到可以使用自定义词典的方法,所以导入hanlp-1.7.2.jar包进行配置。

1.下载jar、data、hanlp.properties。下载地址

2.在hanlp.properties中修改root地址,为data包的上一级目录。

3.按照java提示将hanlp.properties放到项目相应位置。

4.在\data\dictionary\custom文件夹中创建自己的词典,txt格式,utf8编码,形式为词条-空格-词性。

5.第一次使用自定义词典前将缓存文件CustomDictionary.txt.bin删除,否则自定义词典不会生效。

6.在hanlp.properties中修改自定义词典路径,将自己的词典加入。

7.在程序中创建分词器,我用的是标注分词器(还没研究好怎么使用NLP和CRF分词)

Segment segment = HanLP.newSegment().enableCustomDictionary(true);
System.out.println(segment.seg(sentence));

这样就可以实现使用自定义词典进行分词操作,如果是专业领域的词汇比较多的话,需要更加丰富词典的词条才能保证分词的正确率。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值