python nlpir_Python 中文分词 NLPIR 快速搭建

前述

本篇文章写完需要半个小时,阅读需要十分钟,读完后,你将学会在Python中使用NLPIR,以及关于使用它的一些有用的基础知识

NLPIR 是中科院的汉语分词系统,在Python中使用也比较广泛,而且曾多次夺得汉语分词比赛的冠军,并且其可以在多个语言上都实现了接口甚至在Hadoop中也可以使用,博主比较推荐NLPIR

NLPIR在Python中的两种实现方式的比较

NLPIR在Python中有两种实现方式

1. pip install pynlpir(即下载,python封装的nlpir类库)

2. 直接在项目中引入NLPIR,使用官方的py文件,直接调用dll文件接口

第一种方式的好处在于便于使用?只需要pip install 即可,但是博主不推荐这种方式,因为pynlpir功能太少,根本无法满足我们的使用要求,而且与其安装pynlpir还不如直接安装jieba,其源码中实现的接口如下:

在下载了pynlpir之后,我就开始上手使用,然而…它似乎没有实现用户添加词典的功能,除非去包里面直接把词典换了,这样一来,假如我们又遇到了”路明非”的问题,就是错分新词”路明非”为两个词”路明”,”明非”,原文例子请点击http://blog.csdn.net/fontthrone/article/details/72782499,在NLPIR没有识别其为新词的情况下,那么我们根本无法通过pynlpir本身解决,虽然可以利用from pynlpir import nlpir来实现在pynlpir中引用nlpir但是该版本的nlpir仍然是阉割版本的nlpir,比如用户无法直接修改nlpir词库,而在每次程序运行时手动执行import userdict,这就意味这程序本身的性能被大打折扣.

而相对之下,原版的NLPIR虽然配置略显麻烦,但是无论更全面,因此在需要更强大的功能时,博主推荐使用NLPIR,而他们的功能我将会在下面的部分说明.

P

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值