最近在做微博的文本处理,在分词工具的选择上,分别选择了:jieba \ NLPIR \ LTP
这三种分词工具,在这里分享下~
1.jieba 分词:
# -*- coding: UTF-8 -*-
import os
import codecs
import jieba
seg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')
f1 = codecs.open("d2w_ltp.txt","w")
print "/".join(seg_list)
for i in seg_list:
f1.write(i.encode("utf-8"))
f1.write(str(" "))
效果:
邓超/,/1979/年出/生于/江西/南昌/,/中国/内地/男演员/、/电影/导演/、/投资/出品人/、/互联网/投资人/。
这里面包括了结巴的分词和写入文件的形式
值得注意的是结巴分词出来的字符编码是 'Unicode' 编码,我们需要把 unicode -> utf-8