def corpus_content(corpus_path, seg_path):
catelist = os.listdir(corpus_path) # 获取corpus_path下所有的子目录
print("catelist", catelist)
with open(seg_path, 'w', encoding="UTF-8") as fw:
# 获取每个目录下的所有子文件
for mydir in catelist:
print(mydir)
if mydir == "neg":
label = -1
else:
label = 1
class_path = corpus_path + mydir + "/" # 拼出分类子目录的路径如:6000/neg/
file_list = os.listdir(class_path) # 获取未分词语料库中某一类别中的所有文本
for file_path in file_list: # 遍历类别目录下的所有文件
filedir = class_path + file_path # # 拼出文件名全路径如:train_corpus/art/21.txt
content = readfile(filedir).replace(' ','').replace('\n', '')
label_content = str(label)+" "+content+"\n"
fw.write(label_content)
酒店评论预处理程序
最新推荐文章于 2023-03-21 10:46:58 发布