1.下载mecab-chinesedic-binary,放在MeCab bin目录下,具体参考:详细详细可参考《用MeCab打造一套实用的中文分词系统》
cmd运行命令:mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000
其中,wiki.zh.text.jian是一个中文数据集,wiki.zh.text.jian.seg为分割后文本。
2.使用中文分词工具jieBa
- #encoding=utf-8
- import jieba
- #全模式
- text = "我来到北京清华大学"
- seg_list = jieba.cut(text, cut_all=True)
- print u"[全模式]: ", "/ ".join(seg_list)
- #精确模式
- seg_list = jieba.cut(text, cut_all=False)
- print u"[精确模式]: ", "/ ".join(seg_list)
- #默认是精确模式
- seg_list = jieba.cut(text)
- print u"[默认模式]: ", "/ ".join(seg_list)
- #新词识别 “杭研”并没有在词典中,但是也被Viterbi算法识别出来了
- seg_list = jieba.cut("他来到了网易杭研大厦")
- print u"[新词识别]: ", "/ ".join(seg_list)
- #搜索引擎模式
- seg_list = jieba.cut_for_search(text)
- print u"[搜索引擎模式]: ", "/ ".join(seg_list)
#当然也可以用自己定义的词典
如:
- #导入自定义词典
- jieba.load_userdict("dict.txt")
#读取文件并保存
从BaiduSpider文件中读取0001.txt~0204.txt文件,分别进行分词处理再保存。