XML处理模块
警告 XML 模块对于错误或恶意构造的数据是不安全的。 如果你需要解析不受信任或未经身份验证的数据,请参阅 XML 漏洞 和 defusedxml 包部分。
xml.dom
和 xml.sax
包的文档是 DOM 和 SAX 接口的 Python 绑定的定义。
XML 处理子模块包括:
- xml.etree.ElementTree: ElementTree API,一个简单而轻量级的XML处理器。代码可用性好,速度快,消耗内存少。
- xml.dom:DOM API 定义。将 XML 数据在内存中解析成一个树,通过对树的操作来操作XML。
- xml.dom.minidom:最小的 DOM 实现
- xml.dom.pulldom:支持构建部分 DOM 树
- xml.sax:SAX2 基类和便利函数。SAX 用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。
- xml.parsers.expat:Expat解析器绑定
1. ElementTree
1.1 XML生成
#from xml.etree import ElementTree as etree
from xml.etree.ElementTree import Element
from xml.etree.ElementTree import SubElement
from xml.etree.ElementTree import ElementTree
from xml.dom import minidom
# generate root node
root = Element('root')
# generate first child-node head
head = SubElement(root, 'first-sub')
head.set('a1', '123')
# child-node of head node
title = SubElement(head, 'title')
title.text = "This is first subelement!"
# generate second child-node body
body = SubElement(root, 'second-sub')
body.text = "This is second subelement!"
tree = ElementTree(root)
生成的文件结构如下
<root><first-sub><title>This is first subelement!</title></first-sub><second-sub>This is second subelement!</second-sub></root>
XML缩进
每个标签末尾都有一个tail的结束符,通过判断下一个节点是子节点还是并行节点,添加
node.tail='\n\t'
或者node.tail=‘\n\t\t’
<root>
<first-sub a1="123">
<title>This is first subelement!</title>
</first-sub>
<second-sub>This is second subelement!</second-sub>
</root>
1.2 XML解析
import xml.etree.ElementTree as ET
tree = ET.parse('example.xml')
root = tree.getroot(