python中中文分词模块_【记录】折腾Python中的mmseg中文分词模块

从这里知道mmseg的,然后就去折腾试试。

1.找到了主页:

然后先去看最新的1.3.0版本的:

mmseg简介

用来将一段文字,分成对应的(多个)词语。

比如,将:张无忌在光明顶

分为:无忌

张无忌

光明

光明顶

下载mmseg

点击下载:

得到mmseg-1.3.0.tar.gz。

安装mmseg

解压mmseg-1.3.0.tar.gz得到文件夹mmseg-1.3.0

打开cmd,切换到目录mmseg-1.3.0

运行setup.py去安装,结果出现

error: Unable to find vcvarsall.bat

的错误,详细折腾过程参见:

但是却又出现其他错误:

使用mmseg#!/usr/bin/python

# -*- coding: utf-8 -*-

"""

Function:

【记录】折腾Python中的mmseg中文分词模块

https://www.crifan.com/try_python_mmseg_chinese_segment_on_mmseg_algorithm

Author: Crifan Li

Version: 2013-01-02

Contact: admin at crifan dot com

"""

from mmseg import seg_txt;

def tryMmseg():

for i in seg_txt("最主要的更动是:张无忌最后没有选定自己的配偶。"):

print i;

if __name__ == "__main__":

tryMmseg();

但是由于之前链接出错:

导致使用代码时出错:

暂未解决。

总结

mmseg,还是很折腾的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值