python elementtree_Python 使用 ElementTree 模块来处理 XML

最近使用 Python 来发送 SOAP 请求以测试 Web Service 的性能,由于 SOAP 是基于 XML 的,故免不了需要使用 Python 来处理 XML 数据。在对比了几种方案后,最后选定使用 xml.etree.ElementTree 模块来实现。

这篇文章记录了使用 xml.etree.ElementTree 模块常用的几个操作,也算是总结一下,免得以后忘记了。

概述

对比其他 Python 处理 XML 的方案,xml.etree.ElementTree 模块(下文我们以 ET 来表示)相对来说比较简单,接口也较友好。

官方文档 里面对 ET 模块进行了较为详细的描述,总的来说,ET 模块可以归纳为三个部分:ElementTree类,Element类以及一些操作 XML 的函数。

XML 可以看成是一种树状结构,ET 使用ElementTree类来表示整个 XML 文档,使用Element类来表示 XML 的一个结点。对整 XML 文档的操作一般是对ElementTree对象进行,而对 XML 结点的操作一般是对Element对象进行。

解析 XML 文件

ET 模块支持从一个 XML 文件构造ElementTree对象,例如我们的 XML 文件example.xml内容如下(下文会继续使用这个 XML 文档):

1

2008

141100

4

2011

59900

可以使用 ET 模块的parse()函数来从指定的 XML 文件构造一个ElementTree对象:

import xml.etree.ElementTree as ET

# 获取 XML 文档对象 ElementTree

tree = ET.parse('example.xml')

# 获取 XML 文档对象的根结点 Element

root = tree.getroot()

# 打印根结点的名称

print root.tag

从 XML 文件构造好ElementTree对象后,还可以获取其结点,或者再继续对结点进行进一步的操作。

解析 XML 字符串

ET 模块的fromstring()函数提供从 XML 字符串构造一个Element对象的功能。

xml_str = ET.tostring(root)

print xml_str

root = ET.fromstring(xml_str)

print root.tag

接着上面的代码,我们使用 ET 模块的tostring()函数来将上面我们构造的root对象转化为字符串,然后使用fromstring()函数重新构造一个Element对象,并赋值给root变量,这时root代表整个 XML 文档的根结点。

构造 XML

如果我们需要构造 XML 文档,可以使用 ET 模块的 Element类以及SubElement()函数。

可以使用Element类来生成一个Element对象作为根结点,然后使用ET.SubElement()函数生成子结点。

a = ET.Element('a')

b = ET.SubElement(a, 'b')

b.text = 'leehao.me'

c = ET.SubElement(a, 'c')

c.attrib['greeting'] = 'hello'

d = ET.SubElement(a, 'd')

d.text = 'www.leehao.me'

xml_str = ET.tostring(a, encoding='UTF-8')

print xml_str

输出:

leehao.mewww.leehao.me

如果需要输出到文件中,可以继续使用ElementTree.write()方法来处理:

# 先构造一个 ElementTree 以便使用其 write 方法

tree = ET.ElementTree(a)

tree.write('a.xml', encoding='UTF-8')

执行后,便会生成一个 XML 文件a.xml:

leehao.mewww.leehao.me

XML 结点的查找与更新

1. 查找 XML 结点

Element类提供了Element.iter()方法来查找指定的结点。Element.iter()会递归查找所有的子结点,以便查找到所有符合条件的结点。

# 获取 XML 文档对象 ElementTree

tree = ET.parse('example.xml')

# 获取 XML 文档对象的根结点 Element

root = tree.getroot()

# 递归查找所有的 neighbor 子结点

for neighbor in root.iter('neighbor'):

print neighbor.attrib

输出:

{'direction': 'E', 'name': 'Austria'}

{'direction': 'W', 'name': 'Switzerland'}

{'direction': 'N', 'name': 'Malaysia'}

如果使用Element.findall()或者Element.find()方法,则只会从结点的直接子结点中查找,并不会递归查找。

for country in root.findall('country'):

rank = country.find('rank').text

name = country.get('name')

print name, rank

输出:

Liechtenstein 1

Singapore 4

2. 更新结点

如果需要更新结点的文本,可以通过直接修改Element.text来实现。如果需要更新结点的属性,可以通过直接修改Element.attrib来实现。

对结点进行更新后,可以使用ElementTree.write()方法将更新后的 XML 文档写入文件中。

# 获取 XML 文档对象 ElementTree

tree = ET.parse('example.xml')

# 获取 XML 文档对象的根结点 Element

root = tree.getroot()

for rank in root.iter('rank'):

new_rank = int(rank.text) + 1

rank.text = str(new_rank)

rank.attrib['updated'] = 'yes'

tree.write('output.xml', encoding='UTF-8')

新生成的output.xml文件以下:

2

2008

141100

5

2011

59900

对比example.xml文件,可以看到output.xml文件已更新。

参考资料

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: PythonElementTree 模块是一种解析和操作 XML 文档的方式。您可以使用 ElementTree 读取 XML 文件,也可以使用 ElementTree 创建和修改 XML 文档。 以下是 ElementTree 解析 XML 的基本步骤: 1. 导入 ElementTree 模块。 2. 使用 ElementTree 的 parse() 函数打开 XML 文件。 3. 获取根元素。 4. 使用根元素的 find() 或 findall() 方法查找特定元素。 5. 使用元素的 attrib 属性获取元素的属性。 6. 使用元素的 text 属性获取元素的文本。 下面是一个使用 ElementTree 解析 XML 文件的示例代码: ```python import xml.etree.ElementTree as ET # 打开 XML 文件 tree = ET.parse('example.xml') # 获取根元素 root = tree.getroot() # 查找所有 country 元素 for country in root.findall('country'): # 获取 country 元素的属性 name = country.get('name') population = country.get('population') print(name, population) # 查找 country 元素下的 rank 元素 rank = country.find('rank') # 获取 rank 元素的文本 print(rank.text) ``` 这是一个基本的示例代码,您可以根据您的需要进行更改和修改,以实现特定的 XML 解析和操作功能。 ### 回答2: Python ElementTreePython标准库中用于XML解析的模块,他提供了一个简单而有效的方法来解析XML文档并提取相关数据。PythonElementTreePython中提供了一种基于树型结构的解析方式,可以很简单的遍历整个XML文档。 ElementTree提供了Element类,该类代表XML元素。每个XML元素都有指定的标签、属性和子元素,可以使用ElementTreePython中很容易地解析和处理这些元素。 下面是Python ElementTree解析XML的一些常用方法: 1. parse()函数:使用此函数加载XML文件并将其转换为ElementTree对象。 2. Element()函数:使用此函数创建一个新的元素。 3. findall()函数:使用此函数查找所有匹配特定标签的元素。它将返回一个元素列表。 4. find()函数:使用此函数查找第一个匹配特定标签的元素。它将返回一个元素对象。 5. text属性:使用此属性访问元素标记中的文本内容。 6. attrib属性:使用此属性访问元素的属性字典。 7. tag属性:使用此属性访问元素的标签名称。 8. get()方法:使用此方法取得元素的特殊属性。 9. iter()函数:使用此函数可以遍历整个XML文档,一次处理每个元素。 总体而言,Python ElementTree提供了一种非常灵活和强大的方式来解析和处理XML文件。无论是处理大型的、复杂的XML文档,还是处理小型的、简单的XML文件,Python ElementTree均能提供一种非常方便、易用和高效的解决方案。 ### 回答3: Python ElementTreePythonXML 解析库, 通过Python ElementTree, 可以轻松地解析和操作 XML 文件。本文将简要介绍如何使用Python ElementTree解析XML文件。 1. 解析XML文件 在Python中,可以使用ElementTree库的ElementTree.parse()方法解析XML文件,例如: ``` import xml.etree.ElementTree as ET tree = ET.parse('filename.xml') root = tree.getroot() ``` 通过以上代码,我们将XML文件以tree对象的方式进行解析,并得到XML文件的根节点root。此时我们可以通过打印root节点,查看该文件的内部结构。 2. 获取节点数据 一旦我们已经解析了XML,我们可以使用Python ElementTree库访问和操作树中的节点数据。最常用的方法即是通过节点的标签名称和属性来访问该节点: ``` root = ET.fromstring(country_data_as_string) for child in root: print(child.tag, child.attrib) ``` 在这个例子中,我们遍历了XML文档中所有节点,打印出它们的标签名称和属性。 3. 查找特定节点 有时候我们只需要获取XML文档中的特定节点。此时可以使用element.find()方法,该方法返回XML文档中tag名称与我们期望的相同的第一个元素。例如: ``` root.find(".//rank/[@year='2011']") ``` 上述代码中,我们使用XPath表达式在根元素之下查找rank元素,并使用一个特定的year属性值过滤这些元素。我们可以将输出与我们所期望的元素进行比较,以确定方法是否有效。 4. 修改XML文件 使用Python ElementTree库,我们可以轻松地修改XML文档中的数据并将其写回到文件中。例如,我们可以使用以下代码将内容写回到XML文件中: ``` tree.write('filename.xml') ``` 如果需要只写入更新后的XML元素,而不是完整的XML文档,则可以使用ElementTree.tostring()方法。例如: ``` xml_string = ET.tostring(root) ``` 在本文中,我们已经简要介绍了如何使用Python ElementTree解析XML和查找特定节点以及修改XML文件。Python ElementTree是一个功能强大和灵活的XML解析库,可用于处理各种规模和类型的XML文件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值