Eclipse中ICTCLAS 2011 的java调用

http://hi.baidu.com/tanzhangwen/item/ab7c0909699546dddce5b006


本文由twenz整理。

以前ICTCLAS官方网站上并没有官方的java版本,只有一些爱好者根据c++改写的几个java版本供下载。2011/2009则提供了官方的java调用版本,但分词程序的实现应该还是基于c++的dll文件,只是提供了java的借口。下面简要介绍eclipse中使用ICTCLAS2011的简要步骤:

 

1. 下载最新版的分词开源软件ICTCLAS的java版(Windows)

ICTCLAS2011_Windows_32_jni

http://ictclas.org/ictclas_download.asp

 

2. 将ICTCLAS加入到工程中

下载的ICTCLAS50_Windows_32_JNI.rar\Sample\ictclas_sample_java解压到所建立的java工程中,如果工程中代码是放在src文件中的话,则可以把解压后的ICTCLAS文件夹拷贝到src源码文件夹中去

 

3. 运行分词软件ICTCLAS

将解压后的文件TestMain.java复制到工程的源码中去,即可以运行并分词。

 

4. 添加用户自定义的词典

由于提供的词典的词的数量不多,如“与时俱进”这一成语都不能分好,另外一些领域的词也没有,这样需要我们在用户词典中添加我们需要的词语。在解压的文件中有一个userdict.txt的文件,可以加入一些用户自定义的词语用作分词的词典。文件中有:

舟曲县城@@ZQXC
连夜@@LY

两个词。我如果加入一些词语如:

圣元

与时俱进

则能够将该这类词语分词。

 

ICTCLAS Init Fail 问题

问题1:ICTCLAS 2011 java 版本当调用次数增加时候就会导致内存不够而加载失败(Init Fail!)。我调用了300来次没有出问题,都是当调用500次以上时候就出现Init Fail!。在ICTCLAS bbs上一位朋友也遇到类似问题,解决办法是可以使用 开源的java包 或者ICTCLAS 2009(可以在官方网站上找到旧的版本).

问题2:ICTCLAS以前一直运行正常,但是过了一段时间,如半年后,出现init failed,是因为license 过期。重新下载替换ICTCLAS.dll(ICTCLAS30/50.dll)即可。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值