中科院计算所的ICTCLAS分词包java

原创 2013年12月04日 17:54:31

中科院计算所的ICTCLAS分词包,之前看文本聚类的时候看过,一直没仔细学。今天,有空,就去官网上下了个ictclas java包ICTCLAS50_Windows_32_JNI, 这个是最新版本。

1:没用eclipse 调试工具。

那个包里面有实例的,自己可以直接用,当然,自己也可以写的。我此次自己写了个实例如下:

import ICTCLAS.I3S.AC.ICTCLAS50;


public class ictclas_demo {
 public static void main(String[] args) {
  try {
   ICTCLAS50 testICTCLAS50 = new ICTCLAS50();
   // 分词所需库的路径
   String argu = ".";
   // 初始化
   if (testICTCLAS50.ICTCLAS_Init(argu.getBytes("GB2312")) == false) {
    System.out.println("Init Fail!");
    return;
   } else {
    System.out.println("Init Succeed!");
   }

   String sInput = "点击下载超女纪敏佳深受观众喜爱。禽流感爆发在非典之后。";
   byte nativeBytes[] = testICTCLAS50.ICTCLAS_ParagraphProcess(
     sInput.getBytes("GB2312"), 0, 0);
   System.out.println(nativeBytes.length);
   String nativeStr = new String(nativeBytes, 0, nativeBytes.length,
     "GB2312");
   System.out.println("The result is :" + nativeStr);
   testICTCLAS50.ICTCLAS_Exit();
  } catch (Exception ex) {
   ex.printStackTrace();
  }
 }
}
以上为本次实例java程序。

操作步骤:

(1)新建自己的工程目录ictclas_demo,把以上程序ictclas_demo.java放进去。

(2)把下载ICTCLAS50_Windows_32_JNI包解压,把其中API文件夹下的所有文件拷贝到自己的工程ictclas_demo目录下。

(2)在命令行下: 切换到ictclas_demo目录下:执行

$ javac ictclas_demo.java

$ java ictclas_demo

(3) 以上无问题,即可看到正确结果:中科院计算所的ICTCLAS <wbr>使用初涉(1)

 

2. eclipse 下如何使用ICTCLAS包。

这个花了好长一段时间,总算搞定了,现在写下来,方便以后查看。

步骤如下:

(1) 新建一个ictclas_demo的eclipse的工程。把ictlcas_demo.java放到src目录下。

(2)为了使用ictclas包,不如把这个包从外面导入工程中。首先在ictclas_demo的工程名,点击右键,点击import,选择,导入File System ,选择导入的目录为我们下载的ICTCLAS50_Windows_32_JNI下的API文件夹,选中所有文件。点击finish。返回到eclipse的Package Explorer下,你就会看见导入的文件目录结构,到这还没完成任务,还要把ICTCLAS这个目录从外面目录下移到src目录下,就可以了。最终的目录结构如下:

中科院计算所的ICTCLAS <wbr>使用初涉(1)

(3)以上没问题的话,就可以Builer Project了,点击Run就可以看到结果了。

同时注意下,在bin目录下,会生成一个ICTCLAS目录,注意,这个目录和src下的那个ICTCLAS目录是不一样的,里面的文件时.class, 而后者是.java文件。

 

使用ICTCLAS2015进行分词

使用ICTCLAS2015进行分词 在今年的Imagine Cup中使用到了语义分析的部分,其中需要分词作为基础,我是用的是中科院的ICTCLA2015,本篇博客我来讲讲如何使用ICTCLAS20...
  • luoyhang003
  • luoyhang003
  • 2015年03月24日 07:41
  • 3682

用中科院ICTCLAS2015分词器的java接口

要做中文文本的分类  自然首要步骤就是分词(切词)咯  就用了中科院这个分词工具 一开始下了这个工具 看了说明文档也各种迷茫 各种查各种问后  得到如下调用ICTCLAS2015分词器的java接口的...
  • limengxinlirongrong
  • limengxinlirongrong
  • 2015年11月22日 22:22
  • 665

java实现NLPIR(ICTCLAS)分词

1、NLPIR简介         NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增...
  • u013758116
  • u013758116
  • 2015年03月10日 14:13
  • 1854

使用JAVA调用中科院ICTCLAS2015分词系统

由于项目需要,最近需要用到中科院的NLPIR,又名ICTCLAS2015的分词系统。由于目前网上关于使用java调用这个分词系统的博文大多都停留在2013的版本,而关于2015的版本很少,所以在这里写...
  • u013586078
  • u013586078
  • 2015年03月04日 20:30
  • 1668

使用继续完善前人写的文章:使用ICTCLAS JAVA版(ictclas4j)进行中文分词

一、ICTCLAS的介绍中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology...
  • luojinping
  • luojinping
  • 2013年04月11日 15:58
  • 5978

ICTCLAS分词系统研究(一)

        ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。      但有...
  • sinboy
  • sinboy
  • 2006年03月12日 21:56
  • 23074

ICTCLAS分词系统研究(五)--N最短路径

 ICTCLAS和别的分司系统不一样的地方就是于--N最短路径分词算法。所谓N最短路径其实就是最短路径和最大路径的折中,保留前N个最优路径。这样做的目的就是对这两种方法取长补短,既能达到一个比较理解的...
  • sinboy
  • sinboy
  • 2006年05月19日 13:43
  • 14509

【文本分类】最强中文分词系统ICTCLAS

ICTCLAS中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制了汉语词法分析系统ICTCLAS(Institute of Computing Techn...
  • jiayanhui2877
  • jiayanhui2877
  • 2014年05月09日 16:03
  • 2772

ICTCLAS分词关键技术

总体流程 考虑输入的一句话,sSentence="张华平欢迎您",分词流程如下 1、分词 "张/华/平/欢迎/您" 2、posTagging "张/q 华/j 平/j 欢迎/v 您/r" 3、NE识别...
  • renyp8799
  • renyp8799
  • 2015年08月21日 17:16
  • 866

NLPIR分词乱码问题

NLPIR_Init()默认的编码格式是GBK,处理中文我们采用默认格式就好。 如果要从txt文件中读取文本然后分词、词性标注,TXT文件的编码格式应该保存为ANSI。这样结果就不会出现乱码啦。...
  • nannan_smile
  • nannan_smile
  • 2015年11月07日 11:23
  • 855
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:中科院计算所的ICTCLAS分词包java
举报原因:
原因补充:

(最多只允许输入30个字)