中科院分词系统 java_如何使用中科院分词系统(java版)

做数据挖掘,分词是很重要、很基础的一个环节。单独实现一个分词系统并不是一件简单的事情,特别是对于中文而言。好在中科院已经有一套开源的分词系统NLPIR,我们可以直接拿来使用,很方便。下面我就记录一下基于java怎么使用这套系统。

首先看一下关于分词系统的简介

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。

下载第一个“NLPIR/ICTCLAS2015分词系统下载包”即可,如下图

a4814cb274b2b04ffc6d3ab644d5adfa.png

下载之后,解压缩。

进入子目录下的sample文件夹,你会看到有各种示例,我们要用的是java的示例,即“JnaTest_NLPIR”,如下图:

3f79990b9a7a045a8dc422b426263d1c.png

打开eclipse,import这个工程,过程就不再赘述了。

import之后,这时候你去跑,是会报错的。

53655a23dad1b0d07f6c32eb402559d1.png

其实,我们需要改几个地方。

1.回到刚才解压的下载包,进入目录下的lib文件夹,选择你机器对应的版本,比如我是win32的,我就复制win32这个文件夹,粘贴到eclipse工程和src同级目录下,此时工作目录应是如图所示:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值