最近工作中,需要使用NLPIR库函数,其中由于现有的分词不完善,需要添加自定义的分词进去。
通过NLPIR_AddUserWord()函数没有问题,成功导入自定义分词;
然而使用NLPIR_ImportUserDict()时发现分词结果没有按照自定义的字典来;
查了UserDefinedDict.lst文件发现自定义分词已记录在案
网上搜各种原因,未果;
最后发现是编码的问题
我项目的编码是UTF-8,而txt的默认编码是ANSI,将用户字典的txt编码转为项目编码后,解决