从这里知道mmseg的,然后就去折腾试试。
1.找到了主页:
然后先去看最新的1.3.0版本的:
mmseg简介
用来将一段文字,分成对应的(多个)词语。
比如,将:张无忌在光明顶
分为:无忌
张无忌
光明
光明顶
下载mmseg
点击下载:
得到mmseg-1.3.0.tar.gz。
安装mmseg
解压mmseg-1.3.0.tar.gz得到文件夹mmseg-1.3.0
打开cmd,切换到目录mmseg-1.3.0
运行setup.py去安装,结果出现
error: Unable to find vcvarsall.bat
的错误,详细折腾过程参见:
但是却又出现其他错误:
使用mmseg#!/usr/bin/python
# -*- coding: utf-8 -*-
"""
Function:
【记录】折腾Python中的mmseg中文分词模块
https://www.crifan.com/try_python_mmseg_chinese_segment_on_mmseg_algorithm
Author: Crifan Li
Version: 2013-01-02
Contact: admin at crifan dot com
"""
from mmseg import seg_txt;
def tryMmseg():
for i in seg_txt("最主要的更动是:张无忌最后没有选定自己的配偶。"):
print i;
if __name__ == "__main__":
tryMmseg();
但是由于之前链接出错:
导致使用代码时出错:
暂未解决。
总结
mmseg,还是很折腾的。