中科院分词pynlpir使用说明(翻译)

今天用jieba分词分中英混合的句子时效果不太好,就寻求其他分词库,找到了中科院分词pynlpir,不过没找到比较新的,中文的使用说明,这里对照github上的英文说明做一个简要的介绍。


安装

在cmd里输入对应语句即可:

pip install pynlpir

需要说明的是,安装完成后,使用模块时提示我license有问题,需要更新一下,所以需要继续在cmd里输入:

pynlpir update

Pynlpir辅助函数

引入

引入模块很简单:

import pynlpir

打开数据文件并初始化API

使用open()方法打开数据文件并出示话API,需要注意的是,该方法默认输入文件的编码格式为Unicode或者UTF-8格式,如果要使用'GBK'或者'BIG5'编码格式,需要更改对应参数。

pynlpir.open() 

pynlpir.open(encoding = 'big5') #编码格式不是Unicode和UTF-9

分割文本

举个粟子:

s = 'NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLP
  • 7
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值