xml文件中有中文时,使用python报错的解决方案

在使用既有的python的三种方法(SAX,DOM,以及ElementTree)解析XML时,若xml文件里有中文,如果不做特殊处理,通常会报错。以下代码是解决这个问题的一种方法:

def getURLfromXML(filePath):
    import xml.dom.minidom
    
    #f = open(r'E:\download\可汗学院\线性代数\2_M82ICR1D9_M83C7VICB.xml', "r")
    f = open(filePath, "r")
    r = f.read()
    text = str(r.encode('utf-8'), encoding = "utf-8")
    #print(text)
    # 使用minidom解析器打开 XML 文档
    DOMTree = xml.dom.minidom.parseString(text)
    
     
    # 使用minidom解析器打开 XML 文档
    #DOMTree = xml.dom.minidom.parse(r'E:\download\可汗学院\线性代数\2_M82ICR1D9_M83C7VICB.xml')
    collection = DOMTree.documentElement
    #if collection.hasAttribute("shelf"):
    #   print("Root element : %s" % collection.getAttribute("shelf"))
     
    # 在集合中获取sub
    subs = collection.getElementsByTagName("sub")
     
    # 打印每个字幕的详细信息
    for sub in subs:
       #name = sub.getElementsByTagName('name')[0]
       #print(filePath + " Name: %s" % name.childNodes[0].data)
       url = sub.getElementsByTagName('url')[0]
       print(filePath + " Url: %s" % url.childNodes[0].data)

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值