使用Java调用中科院分词NLPIR/ICTCLAS

官方地址:http://ictclas.nlpir.org/

 

1.       下载NLPIR/ICTCLAS2015分词(最新版本)地址:http://ictclas.nlpir.org/newsdownloads?DocId=389

2.       下载NLPIR-ICTCLAS2013-Win-32-JNIu0416)地址:http://ictclas.nlpir.org/newsdownloads?DocId=354(我电脑是64win7,用的是32JDK32Eclipse,如果是64JDK要下载64位的)

3.       下载后将两个压缩包解压

4.       创建Java工程

5.       20141230101836_ICTCLAS2015\ICTCLAS2015\bin\ICTCLAS2015中的NLPIR.dll文件复制到Java工程的跟目录

6.       20130416090224_Win-32bit-JNI-lib\Win-32bit-JNI-lib\中的NLPIR_JNI.dll文件复制到Java工程的跟目录

7.       再将20141230101836_ICTCLAS2015\ICTCLAS2015Data文件夹复制到Java工程的跟目录

8.       20130416090224_Win-32bit-JNI-lib\Win-32bit-JNI-lib中的kevin文件夹TestNLPIR.java复制到Java工程src目录下

9.       工程搭建完成,如图

运行TestNLPIR.java,如果按上面的步骤配置可能会报错了,查看日志发现Configure.xml文件没有找到(日志文件在工程的跟目录 yyyyMMdd.log,第一次执行需要按F5才能看见) 

修改TestNLPIR.java代码31行,改成String argu = “”;即可,如果工程是UFT-8编码,需要把所有的GB2312改成UFT-8,否者会乱码 

 

修改后的代码

 

修改后执行程序控制台输出:分词结果为:张华平/nr推出/v/ude1 NLPIR/x分词/v系统/n/wd/d/qICTCLAS2013/x/wd新增/v新词/n识别/vn/wn关键词/n提取/v/wn/ag/ag分词/v功能/n/wj _

 

但最后一个字符还是乱码了,不知道为什么

 

错误及解决

1.Cannot Open Configure file

../../\Data\Configure.xml

找不到Configure.xml文件,修改TestNLPIR.java31

 

2. Not valid license or your license expired! Please feelfree to contact pipy_zhang@msn.com!

    下载最新的NLPIR/ICTCLAS,用新的Data文件夹覆盖旧的

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值