今天用jieba分词分中英混合的句子时效果不太好,就寻求其他分词库,找到了中科院分词pynlpir,不过没找到比较新的,中文的使用说明,这里对照github上的英文说明做一个简要的介绍。
安装
在cmd里输入对应语句即可:
pip install pynlpir
需要说明的是,安装完成后,使用模块时提示我license有问题,需要更新一下,所以需要继续在cmd里输入:
pynlpir update
Pynlpir辅助函数
引入
引入模块很简单:
import pynlpir
打开数据文件并初始化API
使用open()方法打开数据文件并出示话API,需要注意的是,该方法默认输入文件的编码格式为Unicode或者UTF-8格式,如果要使用'GBK'或者'BIG5'编码格式,需要更改对应参数。
pynlpir.open()
pynlpir.open(encoding = 'big5') #编码格式不是Unicode和UTF-9
分割文本
举个粟子:
s = 'NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLP