NLPIR汉语分词系统,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。(http://ictclas.nlpir.org/)
NLPIR系统提供了丰富的编程接口,包括JAVA、C、C#,当然还有Python。其中利用Python调用分词功能,需要安装PYNLPIR的包。
GIT项目的地址:https://github.com/tsroten/pynlpir
(神奇的是由一个美国人来维护的)
安装了pip工具的可以直接使用pip命令安装:
pip install pynlpir
安装好之后,赶紧来试试基本操作:
分词环境初始化操作:
import pynlpir # 引入依赖包
pynlpir.open() # 打开分词器
s = 'NLPIR分词系统前身为2000年发布的