使用ictclas4j进行中文分词(续)
在对大文件进行中文分词时,出现了以下的错误信息
java.lang.ArrayIndexOutOfBoundsException: -39
at java.util.ArrayList.get(ArrayList.java:324)
at org.ictclas4j.bean.Dictionary.findInOriginalTable(Dictionary.java:
422)
at org.ictclas4j.bean.Dictionary.getFreq(Dictionary.java:632)
at org.ictclas4j.segment.GraphGenerate.biGenerate(GraphGenerate.java:
170)
at org.ictclas4j.segment.Segment.split(Segment.java:81)
at com.ictclas4j.test.MyTest.main(MyTest.java:19)
经过上网查询资料以及阅读相关源代码,找到可能的出错原因:
分词过程中出现了未能识别的字,如繁体字等
改错方法:在Dictionary.java文件中找到findInOriginalTable()方法,将其中的
if (res != null && wts != null) {
修改为
if (res != null && wts != null &&index>=0 &&index<wts.size()) {
即可。