我这篇博客的作用是为了解决用户使用paoding分词器时,添加自定义词的时候,有时候不起作用的现象的
我们在使用paoding分词的时候都需要删除.compile文件夹,所以好奇的我就打开了这个文件夹,发现了名字为most-words-mode的文件夹,从名字我们可以看出
这是庖丁分词的模式,即most-words模式,查看此文件夹下的vocabulary.dic.compiled的内容,发现是在上一篇博客中添加的“中国科”之所以起作用,是因为在这
个文件中包含“中国科”这个词,其余不起作用的词是因为此编译文件没有收录进来。
查了资料,发现庖丁有两种分词模式:
most-words:最大词量分词方式,此模式对应的词典编译类为MostWordsModeDictionariesCompiler
max-word-length: