中文语料分词代码实现:
import os
import jieba
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8’)
#保存文件
savepath=‘E:\data’
def savefile(savepath,content):
fp=open(savepath,“wb”)
fp.write(content)
fp.close()
#读取文件
path=‘E:\data’
def readfile(path):
fp = open(path, “rb”)
content=fp.read()
fp.close()
return content
#分词主程序
corpus_path=“E:/data/train_corpus/”
seg_path=“E:/data/train_corpus_seg/”
catelist=os.listdir(corpus_path)
for mydir in catelist:
class_path=corpus_path+mydir+"/"
seg_dir = seg_path + mydir + “/”
if not os.path.exists(seg_dir):
os.makedirs(seg_dir)
file_list=os.listdir(class_path)
for file_path in file_list:
fullname=class_path+file_path
content=readfile(fullname).strip()
content=content.replace("\r\n","").strip()
content_seg=jieba.cut(content)
savefile(seg_dir+file_path," ".join(content_seg))
print “中文语料分词结束!!!”