最近做毕设要用到ICTCLAS分词系统,记录一下这个过程中碰到的问题,希望能有些同学带来帮助。
1、准备工作
下载下面两个包
2、环境搭建
基本的java运行环境就不说了,主要说一下搭建一个基本的ICTCLAS分词环境
2.1 新建java工程ICTCLAS(是java工程,不是java web 工程,貌似路径上有些差别)
2.2 将将分词系统包解压,将Data、test两个文件夹拷进工程的根目录
2.3 将补丁包解压,将NLPIR_JNI.dll拷进工程根目录,将kevin文件夹和TestNLPIR.java文件拷进工程个src 目录下
目录结构如下:
2.4对TestJLPIR.java内容作如下修改:
(1)将31行改成这样:
String argu = ".";
(2)将48-49两行改成这样:
//初始化分词组件
String argu1 = "./test/test.TXT";
String argu2 = "./test/test_result1.TXT";
现在,应该就可以运行程序了。可能会出现乱码的问题,这个只需要将java编码改一下就好了。
出现过的问题:
1)运行结果输出Init Fail!,这个一般是有Data包跟其它的几个文件不匹配所致,建议分词包和补丁包都用最新的包
2)程序报平台错误,这是由于使用的dll文件与平台不一致导致的。要下载相应平台的文件建立工程。
PS:附件是搭建好的源代码