开发JAVA的程序用ICTCLAS分词确实不怎么舒服,但是没有办法:谁让研究都是以它的分词作为标准的呢!
好了闲话少说,进入正题.
第一步:下载ICTCLAS 。
下载地址:
http://ictclas.nlpir.org/upload/20130416090617_nlpir_ictclas2013_release.zip
http://ictclas.nlpir.org/upload/20130416090224_Win-32bit-JNI-lib.zip
第二步:在下载的同时,我们就可以建立新的JAVA项目了。取名ICTCLAS_2013
第三步:下载完成后,把Win-32bit-JNI-lib.zip及nlpir_ictclas2013_release.zip解压,
解压后的Win-32bit-JNI-lib.zip截图如下:
nlpir_ictclas2013_release.zip的截图如下:
第四步:把Win-32bit-JNI-lib中的kevin目录及TestNLPIR.java复制到项目的src目录下,把NLPIR_JNI.dll复制到ICTCLAS_2013的根目录下。把nlpir_ictclas2013_release.zip中的Data和test目录复制到ICTCLAS_2013的根目录下。
复制成功后,截图如下:
第五步:修改TestNLPIR.java的源代码,把代码的第31行修改成:
String argu = ".";
然后把47到49行修改如下:
//初始化分词组件
String argu1 = "./test/test.TXT";
String argu2 = "./test/test_result1.TXT";
然后把项目中的所有出现:GB2312的地方换成UTF-8。
第六步:运行TestNLPIR
结果如下