中科院中文分词在java中调用详解(ICTCLAS2013版)

在中文分词的时候,现在流行的有很多,下面主要介绍中科院中文分词,现在中科院地址是http://ictclas.nlpir.org/

首先也是开始调用这个接口,调用成功后觉得应该共享出来,让更多人去使用。

然后主要是介绍一下怎么用使用汉语分词系统怎么去调用。必须先在上面那个网址下载NLPIR汉语分词系统,除此之外还要下载NLPIR-ICTCLAS2013-Win-32-JNI(u0114)的支持java版的补充包,包中包括NLPIR_JNI.dll文件和一个demo,这个NLPIR_JNI.dll文件是NLPIR汉语分词系统(又名ICTCLAS2013)是在32位Windows环境下,是供Java调用的API,

第一步:将此NLPIR_JNI.dll文件将替换NLPIR汉语分词系统中bin文件中的dll文件。

第二步:在eclipse中建立以工程文件,然后将汉语分词系统整个文件复制到工程文件的根目录下。

第三步:将补充包中的例子中的testNLPIT.java直接复制到src下,然后将kevin/zhang/NLPIR.java,连带着文件夹一同拷到src下,注:不要改动文件夹和文件名,否则将不能运行,至于为什么,不清楚,肯定包中有目录限定,但不影响使用

第四步:将NLPIR_JNI.dll拷出一份放到根目录下,然后修改demo中的带码testNLPIT.java中初始化目录文件这样写String argu = ".",一般目录不好选择

第五步:运行testNLPIT.java将得到可以分词结果,有带词性标注的结果,如果只分词,可以将NLPIR_ParagraphProcess(sInput.getBytes("GB2312"), 1)改为零,就可以得到分词的效果

注:在eclipse中可以吧NLPIR_JNI。dll放到bin目录下,但在web工程下,请放在web编译好的文件中,一般在build/classes/下,如果web工程直接放在文件下,如果不知道编译的文件输出目录在哪,可以打开工程下的 .classpath文件,下面有输出的目录。


补充:在linux系统下,只需要在中科院网站地址下载支持linux系统到类库,步骤和上面是一样到,只是把支持linux类库引进到上述dll位置即可!


注:如有不妥,还望批评指正!


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 17
    评论
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值