中文语料分词代码

最新推荐文章于 2023-07-21 17:10:53 发布

其娜

最新推荐文章于 2023-07-21 17:10:53 发布

阅读量1.4k

点赞数 3

中文语料分词代码实现：

import os
import jieba
import sys

reload(sys)
sys.setdefaultencoding(‘utf-8’)
#保存文件
savepath=‘E:\data’
def savefile(savepath,content):
fp=open(savepath,“wb”)
fp.write(content)
fp.close()
#读取文件
path=‘E:\data’
def readfile(path):
fp = open(path, “rb”)
content=fp.read()
fp.close()
return content
#分词主程序
corpus_path=“E:/data/train_corpus/”
seg_path=“E:/data/train_corpus_seg/”

catelist=os.listdir(corpus_path)
for mydir in catelist:
class_path=corpus_path+mydir+"/"
seg_dir = seg_path + mydir + “/”
if not os.path.exists(seg_dir):
os.makedirs(seg_dir)
file_list=os.listdir(class_path)
for file_path in file_list:
fullname=class_path+file_path
content=readfile(fullname).strip()
content=content.replace("\r\n","").strip()
content_seg=jieba.cut(content)
savefile(seg_dir+file_path," ".join(content_seg))

print “中文语料分词结束！！！”

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

其娜

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
5
评论
中文语料分词代码

中文语料分词代码实现：import osimport jiebaimport sysreload(sys)sys.setdefaultencoding(‘utf-8’)#保存文件savepath=‘E:\data’def savefile(savepath,content):fp=open(savepath,“wb”)fp.write(content)fp.close()#...
复制链接

扫一扫