Python 处理 xml 文档的方法有很多,除了经典的 sax 和 dom 之外,还有一个 ElementTree。
首先 import 之:
1
|
from
xml.etree
import
ElementTree as etree
|
然后开始构建 xml 树:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
from
xml.etree.ElementTree
import
Element, SubElement, ElementTree
# 生成根节点
root
=
Element(
'root'
)
# 生成第一个子节点 head
head
=
SubElement(root,
'head'
)
# head 节点的子节点
title
=
SubElement(head,
'title'
)
title.text
=
'Well Dola!'
# 生成 root 的第二个子节点 body
body
=
SubElement(root,
'body'
)
# body 的内容
body.text
=
'I love Dola!'
tree
=
ElementTree(root)
|
这样就得到了一个 xml 树的对象 tree 以及它的根节点的对象 root
接着我们把它们变成 xml 串,有两个办法,一个是用 tree 对象的 write 方法将 xml 内容写成一个文件,还有一个是用 etree 的 tostring 方法转成 xml 字符串:
1
2
3
4
5
|
# 第一种
tree.write(
'result.xml'
, encoding
=
'utf-8'
)
# 第二种
xml_string
=
etree.tostring(root)
# xml_string 就是 xml 字符串了
|
但是第二种有一个问题,就是它没有
1
|
<?
xml
version
=
"1.0"
?>
|
这个头部定义内容:
1
|
'<
root
><
head
><
title
>Well Dola!</
title
></
head
><
body
>I love Dola!</
body
></
root
>'
|
怎么办呢?
有一个办法是使用 minidom 来实现,方法如下:
1
2
3
4
5
|
from
xml.dom
import
minidom
# 使用 minidom 解析
tree
=
minidom.parseString(xml_string)
# 重新生成 xml 字符串
xml_string
=
tree.toxml()
|
虽然让计算机多运行了一些代码,但是这样可以把问题解决掉。
最后生成的 xml 代码如下:
1
|
u'<?
xml
version
=
"1.0"
?><
root
><
head
><
title
>Well Dola!</
title
></
head
><
body
>I love Dola!</
body
></
root
>'
|
当然还可以使用 minidom 中 tree 对象的 toprettyxml 方法把 xml 打得漂亮一点。