如果使用maven直接配置Hanlp的话,没找到可以使用自定义词典的方法,所以导入hanlp-1.7.2.jar包进行配置。
1.下载jar、data、hanlp.properties。下载地址
2.在hanlp.properties中修改root地址,为data包的上一级目录。
3.按照java提示将hanlp.properties放到项目相应位置。
4.在\data\dictionary\custom文件夹中创建自己的词典,txt格式,utf8编码,形式为词条-空格-词性。
5.第一次使用自定义词典前将缓存文件CustomDictionary.txt.bin删除,否则自定义词典不会生效。
6.在hanlp.properties中修改自定义词典路径,将自己的词典加入。
7.在程序中创建分词器,我用的是标注分词器(还没研究好怎么使用NLP和CRF分词)
Segment segment = HanLP.newSegment().enableCustomDictionary(true);
System.out.println(segment.seg(sentence));
这样就可以实现使用自定义词典进行分词操作,如果是专业领域的词汇比较多的话,需要更加丰富词典的词条才能保证分词的正确率。