准备需要训练的原始语料
在这里,我们采用docx文档作为原始语料:
如图所示,这些文档是我用到的语料。
将语料转换为txt文件格式
用到了docx这个包,可能需要先安装一下:pip install docx
代码如下:
import os
import docx
def docx_to_txt():
# 打开文件
files = os.listdir('./corpus') # 此处为你存放语料的路径
with open('corpus.txt', 'w+', encoding='utf-8') as f:
for file_name in files:
if file_name.endswith('docx'):
print(file_name)
file = docx.opendocx("./corpus/"+file_name)
# 读取文本内容
text = docx.getdocumenttext(file)
# 写入文件
for t in text:
f.write(t)
docx_to_txt()