之前一直没有试过读取文件来加入用户词典,用的都是 NLPIR_AddUserWord手工添加用户词典,但是这个方法比较适合添加个别词,词一多就不太适合
NLPIR提供了一个NLPIR_ImportUserDict(byte[]sPath)导入用户词典的接口。试着用了下,发现都没有导入成功。
原来的版本
新版(ICTCLAS2013)应该改为
1.词语与词性用TAB键隔开;
2.词与词,';'貌似不行,我每行一个词,成功;
例如:
中科院 n
分词系统 n
前面是NLPIR初始化
String UserDictPath="../file/test.txt";//用户词典URL
int dict=testNLPIR.NLPIR_ImportUserDict(UserDictPath.getBytes());//返回的结果是用户词个数
nativeBytes= testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes("utf-8"), 1);
nativeStr = new String(nativeBytes, 0, nativeBytes.length, "utf-8");
System.out.println(dict+"导入词典: " + nativeStr);
model.addAttribute("fenci1",nativeStr);
testNLPIR.NLPIR_Exit();
结果
第一行未使用用户词典,第二行使用了用户词典
我加入了的用户词:数据结构和数据元素