我的目的是使用xml.dom.minidom中的parse方法直接读入xml文件
但是我的数据集里除了utf-8格式还有gb2312格式,parse方法并不支持gb2312格式,所以在网上找了很多方法将utf-8格式xml转成gb2312格式xml,经过我的整合和测试,将我的的方法分享一下。
tips:
1.直接修改XML的encoding头部是错误的。
2.直接按二进制方式读取然后使用utf-8方式encode也不行
3.需要结合上面两个步骤,先修改encoding头部,再encode
4.python3.6中不能使用 str.decode("gb2312").encode("utf-8")方式,会出现attribute错误,py3中字符串没有decode属性
def replaceXmlEncoding(filepath):
try:
f = open(filepath, mode='r')
content = f.read()#文本方式读入
content = re.sub("GB2312", "UTF-8", content)#替换encoding头
f.close()
f = open(filepath, 'w')#写入
f.write(content)
f.close()
f = codecs.open(filepath, 'rb', 'mbcs')#二进制方式读入
text = f.read().encode("utf-8")#使用utf-8方式编码
f.close
f = open(filepath, 'wb')#二进制方式写入
f.write(text)
f.close()
except:
return