中文语料分词代码

中文语料分词代码实现:

import os
import jieba
import sys

reload(sys)
sys.setdefaultencoding(‘utf-8’)
#保存文件
savepath=‘E:\data’
def savefile(savepath,content):
fp=open(savepath,“wb”)
fp.write(content)
fp.close()
#读取文件
path=‘E:\data’
def readfile(path):
fp = open(path, “rb”)
content=fp.read()
fp.close()
return content
#分词主程序
corpus_path=“E:/data/train_corpus/”
seg_path=“E:/data/train_corpus_seg/”

catelist=os.listdir(corpus_path)
for mydir in catelist:
class_path=corpus_path+mydir+"/"
seg_dir = seg_path + mydir + “/”
if not os.path.exists(seg_dir):
os.makedirs(seg_dir)
file_list=os.listdir(class_path)
for file_path in file_list:
fullname=class_path+file_path
content=readfile(fullname).strip()
content=content.replace("\r\n","").strip()
content_seg=jieba.cut(content)
savefile(seg_dir+file_path," ".join(content_seg))

print “中文语料分词结束!!!”

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值