python分词器_python中文分词器pymmseg的安装实录

本文详细记录了在Windows 64位和CentOS 64位系统上安装pymmseg的过程,包括下载源码、配置编译环境、编译安装以及测试验证分词功能的步骤。通过安装和测试,确保pymmseg在两种操作系统上都能正常工作,为Python文本处理提供中文分词支持。
摘要由CSDN通过智能技术生成

最近在用python做爬虫项目,感受到了python的强大,这期间要试试python的文本处理,要用到中文分词,故把我安装使用pymmseg的过程记录下来,作为备忘。

选择下载源码包,自己编译,省的出现不兼容的情况。我选择的是pymmseg-cpp-src-1.0.2.tar.gz,下面是windows与linux平台的安装过程

64位win7下pymmseg安装过程:

1,解压,随便怎么解

2,确保你有一个命令行可用的C++编译器和连接器,我装了vs2008,就用了vs带的编译器,在vs开始菜单里找到"Visual Studio Tools"/"Visual Studio 2008 x64 Win64 命令提示",这个命令行窗口启动时会自动配好编译器和连接器的环境变量,可以直接使用cl,link等命令了。(64位的机器要用64位的编译器编译,否则32位编译器编译生成的dll,在64位系统中加载会出问题。同理32位的选32的命令窗口)

3,通过上面的命令行窗口进入解压后的目录,我这里是pymmseg-cpp,再进入子目录,mmseg-cpp,执行

1 python build.py

然后就是编译生成mmseg的过程,如下图:

4,这时将pymmseg-cpp的整个目录copy到$PYTHON_HOME/Lib/site-packages目录下,并重命名为pymmseg

5,测试是否可用:

1 from pymmseg importmmseg2 mmseg.dict_load_defaults()3 text = '意思是说,tomcat默认设置能接收HTTP POST请求的最大为2M,如果你的POST请求数据大于2M'

4 algor =mmseg.Algorithm(text)5 for tok inalgor:6 print '%s [%d..%d]' % (tok.text, tok.start, tok.end)

执行结果如下:

意思 [0..6]

是说 [6..12]

tomcat [13..19]

默认 [19..25]

设置 [25..31]

能 [31..34]

接收 [34..40]

HTTP [40..44]

POST [45..49]

请求 [49..55]

的 [55..58]

最大 [58..64]

为 [64..67]

2M [67..69]

如果 [70..76]

你的 [76..82]

POST [82..86]

请求 [86..92]

数据 [92..98]

大于 [98..104]

2M [104..106]

到此,说明pymmseg在win7 X64上完全可用了。

centos6.4 64位下pymmseg安装过程:

1,确保你安装了gcc,g++,没安gcc和g++的执行:

yum -y install gccyum -y install gcc-c++

2,通windows上下载源码解压,进入目录,并进入子目录mmseg-cpp,执行:

python build.py

整个过程如下图:

同样将编译好的pymmseg-cpp拷贝到python的lib库下site-packages中并重命名为pymmseg,我是编译安装的python2.75,lib库的地址在/usr/local/lib/python2.7/

试验是否安装成功,如下图:

到此,windows与linux上的pymmseg均已安装完成,可以使劲的用了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值