java中科院分词配置(ICTCLAS) 转

最近在做文本资源整理,主要是做一些分词,词频统计,情感分析。上网搜了一下,中科院分词配置(ICTCLAS)属于开源比较不错的工具,于是拿来用一下,但出现了很多问题。按照这篇文章的方法,总算把程序跑通了,留个痕迹,方便以后再找。


之前零零散散用过几次,配置好了就没管过。后来再用的时候就忘了怎么配置,又找了很多资料(太麻烦了)。现总结一下当作笔记:

首先,下载中科院分词项目。

github网址:https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR%20SDK/NLPIR-ICTCLAS

使用的时候两种方法 一种直接在eclipse中导入如图所示的项目

在这个java文件中配置两个路径

第一个:

// 定义并初始化接口的静态变量
CLibrary Instance = (CLibrary) Native.loadLibrary("D:\\NLPIR\\bin\\ICTCLAS2013\\x64\\NLPIR", CLibrary.class);

D:\\NLPIR\\bin\\ICTCLAS2013\\x64\\NLPIR 这个路径改为下面路径中的一个(ps 什么系统选什么样的文件夹 如果你是win32位 那么路径就改为H:\\work_eclipse\\20160707102537_ICTCLAS2016分词系统下载包\\汉语分词20140928\\lib\\win32\\NLPIR  最后面的NLPIR是文件名不需要加后缀,当然你也可以把这个文件单独拿出来建一个目录存放。只要把路径改成该目录的路径就可以了)

第二个:

String argu = "D:\\NLPIR";
// String system_charset = "GBK";//GBK----0
String system_charset = "UTF-8";

argu 为data文件夹路径,找到data文件夹路径替换他就可以了(同样可以将data文件夹单独拿出来建一个目录存放,只要把路径改成该目录的路径就可以了)如图所示

路径就改为String argu = "H:\\work_eclipse\\20160707102537_ICTCLAS2016分词系统下载包\\汉语分词20140928";

配置完成后运行NlpirTest 可能会出现Not valid license or your license expired 这个错误。这时候你要点击这个URL:https://github.com/NLPIR-team/NLPIR/tree/master/License

根据需要找到你要的授权。如图所示:

 

以分词为例选取一个月授权点击”NLPIR-ICTCLAS分词系统授权.rar

再点击View Raw即可下载(其他方式下载可能会出现文件夹随坏的情况)

解压后 将里面的NLPIR.user复制到data文件中即可。再运行NlpirTest 这个class就可以出结果了。

 另一种是在项目中使用中科院分词。配置如上不在赘述,与上面方法不同的地方在于你要在的项目中部署中科院分词的jar包。如图所示:

将这个jar包部署到你的项目中,再将NlpirTest 复制到你的项目中即可运行。

import utils.SystemParas; 这个出错可直接删除,当然你也可以将这个class复制到项目中配置一下(但是好像没有用到)。(ps 如果你要做其他研究只要在NlpirTest中加入其他代码即可 )


转自:http://www.cnblogs.com/lyr-notebook/p/5409008.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值