智能语言的处理中,第一个步骤就是分词。一个句子处理的第一步就是分词了,目前而言中文分词中效果最好的就是中科院分词系统。在2014版本以及之前称为ICTCLAS,之后的版本都更名为NLPIR。
我给出一个最简单的使用教程,能够帮助新手快速上手使用。
我使用的开发环境是eclipse,32位操作系统
首先是下载,下载两个压缩包,一个是分词包一个接口包,ICTCLAS是纯C编写,在java上使用需要JNI也就是c语言加一个java接口,NLPIR有java版本,我使用的是ICTCLAS加一个接口的方法。
点击转至下载地址,代码为U1115的是32位分词包U1105是64位。http://ictclas.nlpir.org/newsdownloads?DocId=384 下载JNI。
分别解压后待用。
解压开分词包,新建一个项目,将Data目录拷贝到file目录;解压开JNI包将NLPIR.dll动态链接库放到项目目录下,与file目录同级。想利用原有文献测试的话把test也复制过去。我的图传不上来,借用一张图。
智能语言-中科院分词系统ICTCLAS(NLPIR)
最新推荐文章于 2021-02-15 18:53:03 发布