首先是ICTCLSS4J的安装:
具体步骤见链接:10分钟开始使用ICTCLAS Java版 进一步对文件进行分词见链接:使用ictclas4j进行中文分词 ,该博文还提供了一些bug的修复。
然后是ICTCLSS4J的bug修改:
在运行小量数据时,有些bug不会被发现。但是当我处理190M的txt文本时,接连报错。最后找到一篇bug总结文档,见链接:Ictclas4j中的bug 。在修复以上错误之后,分词 系统终于正常运行了。
首先是ICTCLSS4J的安装:
具体步骤见链接:10分钟开始使用ICTCLAS Java版 进一步对文件进行分词见链接:使用ictclas4j进行中文分词 ,该博文还提供了一些bug的修复。
然后是ICTCLSS4J的bug修改:
在运行小量数据时,有些bug不会被发现。但是当我处理190M的txt文本时,接连报错。最后找到一篇bug总结文档,见链接:Ictclas4j中的bug 。在修复以上错误之后,分词 系统终于正常运行了。