python3.6中GB2312格式XML文件读取

我的目的是使用xml.dom.minidom中的parse方法直接读入xml文件

但是我的数据集里除了utf-8格式还有gb2312格式,parse方法并不支持gb2312格式,所以在网上找了很多方法将utf-8格式xml转成gb2312格式xml,经过我的整合和测试,将我的的方法分享一下。

tips:

1.直接修改XML的encoding头部是错误的。

2.直接按二进制方式读取然后使用utf-8方式encode也不行

3.需要结合上面两个步骤,先修改encoding头,再encode

4.python3.6中不能使用 str.decode("gb2312").encode("utf-8")方式,会出现attribute错误,py3中字符串没有decode属性

def replaceXmlEncoding(filepath):
    try:
        f = open(filepath, mode='r')
        content = f.read()#文本方式读入
        content = re.sub("GB2312", "UTF-8", content)#替换encoding头
        f.close()
        f = open(filepath, 'w')#写入
        f.write(content)
        f.close()
        f = codecs.open(filepath, 'rb', 'mbcs')#二进制方式读入
        text = f.read().encode("utf-8")#使用utf-8方式编码
        f.close
        f = open(filepath, 'wb')#二进制方式写入
        f.write(text)
        f.close()
    except:
        return

  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值