paoding自定义词典研究2

本文探讨了paoding分词器在添加自定义词时遇到的问题及解决方案。作者发现most-words模式下,自定义词需在特定编译文件中才能生效,并介绍了庖丁的most-words和max-word-length两种分词模式。通过修改配置文件以切换到max-word-length模式,确保自定义词被正确分词。实验结果显示,新模式成功包含了所有自定义词汇。
摘要由CSDN通过智能技术生成

我这篇博客的作用是为了解决用户使用paoding分词器时,添加自定义词的时候,有时候不起作用的现象的


我们在使用paoding分词的时候都需要删除.compile文件夹,所以好奇的我就打开了这个文件夹,发现了名字为most-words-mode的文件夹,从名字我们可以看出

这是庖丁分词的模式,即most-words模式,查看此文件夹下的vocabulary.dic.compiled的内容,发现是在上一篇博客中添加的“中国科”之所以起作用,是因为在这

个文件中包含“中国科”这个词,其余不起作用的词是因为此编译文件没有收录进来。

查了资料,发现庖丁有两种分词模式:

most-words:最大词量分词方式,此模式对应的词典编译类为MostWordsModeDictionariesCompiler

max-word-length:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值