如何在jieba分词中加自定义词典_基于自定义词典和Viterbi解码的中文分词方法

最新推荐文章于 2023-03-30 16:19:53 发布

weixin_39644614

最新推荐文章于 2023-03-30 16:19:53 发布

阅读量143

点赞数

文章标签：如何在jieba分词中加自定义词典

HanLP[1]是基于词典+Viterbi解码中文分词程序，跟IK一样，支持自定义词典，默认词典有85584个词。利用hanlp的elasticsearch插件elasticsearch-analysis-hanlp[2]，进行ICWS2005PKU测试评价，并于IK和JIEBA的效果进行对比，HanLP的效果如图1：

图1 基于词典的分词程序(HanLP)在ICWS2005-PKU下的评价

相比IK的评价，如图2：

图2 基于词典的分词程序(IK)在ICWS2005-PKU下的评价

两者相比，Hanlp的词典要优于IK的默认词典。

对比hanlp的elasticsearch-analysis-hanlp插件配置了自定义字典[3]，修改hanlp.properties文件中ROOT配置，则评价有所下降，留作日后有空研究。模型的核心字典词增加，有153091个词，elasticsearch启动后占用内存同样增加，但在ICWS2005-PKU测试下评价却下降，见图3：