如何在jieba分词中加自定义词典_基于自定义词典和Viterbi解码的中文分词方法

HanLP[1]是基于词典+Viterbi解码中文分词程序,跟IK一样,支持自定义词典,默认词典有85584个词。利用hanlp的elasticsearch插件elasticsearch-analysis-hanlp[2],进行ICWS2005PKU测试评价,并于IK和JIEBA的效果进行对比,HanLP的效果如图1:

a62cc2266af46785cf90c8a35eddfc4f.png
图1 基于词典的分词程序(HanLP)在ICWS2005-PKU下的评价

相比IK的评价,如图2:

4b950e954af8e9922ce72fab28ad7e7b.png
图2 基于词典的分词程序(IK)在ICWS2005-PKU下的评价

两者相比,Hanlp的词典要优于IK的默认词典。

对比hanlp的elasticsearch-analysis-hanlp插件配置了自定义字典[3],修改hanlp.properties文件中ROOT配置,则评价有所下降,留作日后有空研究。模型的核心字典词增加,有153091个词,elasticsearch启动后占用内存同样增加,但在ICWS2005-PKU测试下评价却下降,见图3:

99efa6a9440e8c6034b9ae180943a5a6.png

总结,对于词典+Viterbi算法的中文分词而言,词典的词项增加会有一个最佳值,超过最佳值在某些领域(人民日报)效果会下降;即字典数由85584增加到153091,PKU测试的f1值由0.8976降至0.8753。

[1]HanLP中文工具包. https://github.com/hankcs/HanLP/tree/portable.

[2]elasticsearch-analysis-hanlp. https://github.com/AnyListen/elasticsearch-analysis-hanlp.

[3]HanLP的字典文件. http://nlp.hankcs.com/download.php?file=data

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值