在使用niutrans是用自己的数据进行模型训练时翻译失败,原来是双语文件编码问题,前提要将预料文件改成utf-8withoutBom的格式,否则造成训练失败。
f = open(“sourcedata/english.raw.sample.txt”, “rb”)
s = f.read()
if s.startswith(codecs.BOM_UTF8):
s = s[len(codecs.BOM_UTF8):]
f.close()
判断文本的编码类型
f = open(‘sourcedata/chinese.raw.sample.txt’, ‘rb’)
data = f.read()
print(chardet.detect(data))
python实现将文本格式改为utf-8withoutBom格式
最新推荐文章于 2024-05-14 10:44:29 发布