前述
本篇文章写完需要半个小时,阅读需要十分钟,读完后,你将学会在Python中使用NLPIR,以及关于使用它的一些有用的基础知识
NLPIR 是中科院的汉语分词系统,在Python中使用也比较广泛,而且曾多次夺得汉语分词比赛的冠军,并且其可以在多个语言上都实现了接口甚至在Hadoop中也可以使用,博主比较推荐NLPIR
NLPIR在Python中的两种实现方式的比较
NLPIR在Python中有两种实现方式
1. pip install pynlpir(即下载,python封装的nlpir类库)
2. 直接在项目中引入NLPIR,使用官方的py文件,直接调用dll文件接口
第一种方式的好处在于便于使用?只需要pip install 即可,但是博主不推荐这种方式,因为pynlpir功能太少,根本无法满足我们的使用要求,而且与其安装pynlpir还不如直接安装jieba,其源码中实现的接口如下:
在下载了pynlpir之后,我就开始上手使用,然而…它似乎没有实现用户添加词典的功能,除非去包里面直接把词典换了,这样一来,假如我们又遇到了”路明非”的问题,就是错分新词”路明非”为两个词”路明”,”明非”,原文例子请点击http://blog.csdn.net/fontthrone/article/details/72782499,在NLPIR没有识别其为新词的情况下,那么我们根本无法通过pynlpir本身解决,虽然可以利用from pynlpir import nlpir来实现在pynlpir中引用nlpir但是该版本的nlpir仍然是阉割版本的nlpir,比如用户无法直接修改nlpir词库,而在每次程序运行时手动执行import userdict,这就意味这程序本身的性能被大打折扣.
而相对之下,原版的NLPIR虽然配置略显麻烦,但是无论更全面,因此在需要更强大的功能时,博主推荐使用NLPIR,而他们的功能我将会在下面的部分说明.
P