在python中处理XML总结

最新推荐文章于 2024-08-01 09:25:57 发布

wangyuhere

最新推荐文章于 2024-08-01 09:25:57 发布

阅读量616

点赞数

分类专栏： python xml 文章标签： python xml user exception 文档 encoding

本文链接：https://blog.csdn.net/wangyuhere/article/details/5624309

版权

python 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

xml

1 篇文章 0 订阅

订阅专栏

本文总结了在Python中主要的几种处理XML的方法：

Element Tree
SAX
Dom
使用第三方类库如Amara 2.x， libxml2dom 等

Element Tree

Element Tree是Python 2.5引入的使用简单，快捷的处理方法，也是Python标准类库推荐的处理XML的方法。

它使用树形节点的形式来读写XML。Element Tree是轻量级的DOM，所以使用方便且耗资源少。

比如有以下XML文件： sample.xml

<?xml version="1.0" encoding="UTF-8"?> <users> <user id="001"> <name>John</name> <age>25</age> <phone>12345</phone> </user> <user id="002"> <name>Bill</name> <age>30</age> <phone>54321</phone> </user> <user id="003"> <name>Rex</name> <age>35</age> <phone>88888</phone> </user> </users>

实例代码如下：

# -*- coding: utf-8 -*- import sys from xml.etree import ElementTree as ET # 打印user节点，格式为tag：text def printUser(user): print "/nid:/t%s" % user.attrib.get('id') for e in user.getchildren(): print "%s:/t%s" % (e.tag, e.text) if __name__ == '__main__': xmlFile = 'sample.xml' # 解析sample.xml doc = ET.parse(xmlFile) users = doc.getroot() # 遍历所有user，打印id和name for user in users.findall('user'): print "ID: %s/tName: %s" % (user.attrib['id'], user.find('name').text) # 找出id是001的user user1 = None for user in users.getiterator('user'): if user.attrib.get('id') == '001': user1 = user # 将user的phone改为999，再打印这个user节点 if user1 != None: printUser(user1) user1.find('phone').text = '9999' print ET.tostring(user1, 'utf-8') # 删除name为Rex的user for user in users.getiterator('user'): if user.find('name').text == 'Rex': users.remove(user) # 添加一个user user = ET.SubElement(users, 'user', {'id':'004'}) ET.SubElement(user, 'name').text = 'jane' ET.SubElement(user, 'age').text = '45' ET.SubElement(user, 'phone').text = '00000' # 输出整个文档 doc.write(sys.stdout, 'utf-8')

输出结果：

ID: 001 Name: John

ID: 002 Name: Bill

ID: 003 Name: Rex

id: 001

name: John

age: 25

phone: 12345

</user>

<users>

</user>

</user>

SAX

SAX处理效率较高，但只支持读文档无法修改，而且不能从文档中间开始读，只能从头读到尾。

SAX是事件驱动的，当读到xml节点开始和结尾时，调用相应的Handler函数。

例如以下代码处理相同的sample.xml：

# -*- coding: utf-8 -*- from xml.sax import parse from xml.sax.handler import ContentHandler, ErrorHandler class SampleHandler(ContentHandler): def __init__(self): # 用于标记是否在user节点内 self._isUser = False # 用于标记是否在name节点内 self._isName = False # 处理文档开始时调用 def startDocument(self): print 'start document' # 处理文档结束时调用 def endDocument(self): print 'end document' # 处理节点开始时调用，参数为节点名，属性字典 def startElement(self, name, attrs): print 'start element %s' % name if name == 'user': self._isUser = True print 'ID: %s' % attrs['id'] elif name == 'name': self._isName = True # 处理节点结束时调用 def endElement(self, name): print 'end element %s' % name if name == 'user': self._isUser = False elif name == 'name': self._isName = False # 处理节点值的时候调用 def characters(self, content): if self._isName and self._isUser: print 'Name: %s' % content class SampleErrorHandler(ErrorHandler): def error(self, exception): print exception.getMessage() def fatalError(self, exception): print exception.getMessage() def warning(self, exception): print exception.getMessage() if __name__ == '__main__': parse('sample.xml', SampleHandler(), SampleErrorHandler())

输出结果：

start document

start element users

start element user

ID: 001

start element name

Name: John

end element name

start element age

end element age

start element phone

end element phone

end element user

start element user

ID: 002

start element name

Name: Bill

end element name

start element age

end element age

start element phone

end element phone

end element user

start element user

ID: 003

start element name

Name: Rex

end element name

start element age

end element age

start element phone

end element phone

end element user

end element users

end document

Dom

效率较低。但支持读写和查找。

例如：

# -*- coding: utf-8 -*- import xml.dom.minidom # 返回节点的值 def getText(nodelist): rc = [] for node in nodelist: if node.nodeType == node.TEXT_NODE: rc.append(node.data) return ''.join(rc) # 设置节点的值 def setText(nodelist, data): for node in nodelist: if node.nodeType == node.TEXT_NODE: node.data = data break # 添加一个节点，返回添加的节点 def appendElement(dom, parent, name, value=None, attrs=None): e = dom.createElement(name) if value != None: e.appendChild(dom.createTextNode(value)) if attrs != None: for key in attrs: e.setAttribute(key, attrs[key]) parent.appendChild(e) return e if __name__ == '__main__': # 解析xml dom = xml.dom.minidom.parse('sample.xml') # 打印所有的user users = dom.getElementsByTagName('user') for user in users: id = user.getAttribute('id') name = getText(user.getElementsByTagName('name')[0].childNodes) print "ID: %s/tName: %s" % (id, name) # 找到id为001的user user1 = None for user in users: id = user.getAttribute('id') if id == '001': user1 = user break # 设置user 001的电话为9999 if user1 != None: print user1.toxml('utf-8') setText(user1.getElementsByTagName('phone')[0].childNodes, '9999') print user1.toxml('utf-8') # 删除id为003的user for user in users: id = user.getAttribute('id') if id == '003': dom.documentElement.removeChild(user) break # 添加一个user user = appendElement(dom, dom.documentElement, 'user', None, {'id':'004'}) appendElement(dom, user, 'name', 'jane') appendElement(dom, user, 'age', '45') appendElement(dom, user, 'phone', '00000') # 打印整个文档 print dom.toxml('utf-8')

输出结果：

ID: 001 Name: John

ID: 002 Name: Bill

ID: 003 Name: Rex

</user>

</user>

<?xml version="1.0" encoding="utf-8"?><users>

</user>

</user>