python解析xml文件elementtree_Python XML解析之ElementTree

参考网址:

菜鸟教程提供了基本的XML编程接口DOM、SAX,以及轻量级ElementTree的简易概念说明和一些示例。DOM是一种跨语言的XML解析机制,通过将整个XML在内存中解析为一个树来操作,ElementTree未做太多介绍,你可以到官网网址查看其详细的方法释义。

ElementTree是Python中最快捷的XML解析方式,可以看做一个轻量级的DOM,本文主要讲ElementTree,ElementTree在解析XML时非常方便,DOM比较笨重但是功能齐全,例如ElementTree处理XML注释时就很不方便(详见https://bugs.python.org/issue8277),此时用DOM比较好。

API名称:

from xml.etree import ElementTree as ET

概念定义:

1

2008

141100

我们把xxx这种结构称为一个element,country称作element的tag,<>>之间的内容称作element的text或data,<>中的name称作element的attrib,而整个XML树被称作ElementTree。

element是一个名为xml.etree.ElementTree.Element的类,其描述为:

class xml.etree.ElementTree.Element(tag, attrib={}, **extra)

此类的所有属性和方法查看:

https://docs.python.org/2/library/xml.etree.elementtree.html#element-objects

方法释义:

读取XML数据:

--读取XML文件

import xml.etree.ElementTree as ET

tree = ET.parse('country_data.xml')

root = tree.getroot()

--读取XML字符串

root = ET.fromstring(country_data_as_string)

--获取element object的四大属性tag、text、attrib以及tail

root.tag #root element的tag

root.text #root element的text

root.attrib #root element本身的attrib,dict格式的

root.tail #root element的tag结束到下一个tag之间的text

--通过DICT逻辑获取树形结构的text,表示第一个child的第二个child element的text

root[0][1].text

element object的方法:

Element.iter(tag) --遍历当前element树所有子节点的element(无论是子节点还是子节点的子节点),找到符合指定tag名的所有element,如果tag为空则遍历当前element树,返回所有节点element(包含当前父节点)。2.7和3.2之前的版本无此方法,可以用getiterator()代替。

Element.findall(tag) --遍历当前节点的直接子节点,找到符合指定tag名的element,返回由element组成的list

Element.find(tag) --遍历当前节点的直接子节点,找到符合指定tag名的第一个element

Element.get(key) --在当前element中获取符合指定attrib名的value

...其他方法参考官网

修改XML内容:

ElementTree.write(file, encoding="us-ascii", xml_declaration=None, default_namespace=None, method="xml") --将之前的修改写入XML

Element.set(key,value) --设置element attrib

Element.append(subelement) --新增一个子element,extends(subelements)是3.2的新增用法,输入参数必须是一个element序列

Element.remove(subelement) --删除指定tag的element

示例:

>>> for rank in root.iter('rank'):

... new_rank = int(rank.text) + 1

... rank.text = str(new_rank)

... rank.set('updated', 'yes')

...

>>> tree.write('output.xml')

处理含有Namespaces的XML文件:

--有一个如下的XML字符串:

xmlns="http://people.example.com">

John Cleese

Lancelot

Archie Leach

Eric Idle

Sir Robin

Gunther

Commander Clement

其中包含fictional和default两个命名空间,这意味fictional:xxx格式的tags、attributes都会被自动扩展为{uri}xxx格式。而如果还定义了默认命名空间xmlns,那么所有无前缀的tags也会被扩展为{url}xxx格式。

有两种将此类XML处理为普通格式的方法:

方法一:在匹配时直接手动加上{uri}前缀

root = fromstring(xml_text)

for actor in root.findall('{http://people.example.com}actor'):

name = actor.find('{http://people.example.com}name')

print name.text

for char in actor.findall('{http://characters.example.com}character'):

print ' |-->', char.text

方法二:创建自己的namespace别名(其实只是在ns uri很长时可以少写点,实质并没有效率提升)

ns = {'real_person': 'http://people.example.com','role': 'http://characters.example.com'}

for actor in root.findall('real_person:actor', ns):

name = actor.find('real_person:name', ns)

print name.text

for char in actor.findall('role:character', ns):

print ' |-->', char.text

--两种方式的输出结果都是:

John Cleese

|--> Lancelot

|--> Archie Leach

Eric Idle

|--> Sir Robin

|--> Gunther

|--> Commander Clement

一个比较proxool.xml文件的示例代码:

# -*- coding:utf-8 -*-

# 用于进行配置文件的差异比较,2.7和3.2之前element没有iter()的遍历方法可以用getiterator()代替

import sys

from xml.etree import ElementTree as ET

from xml.dom import minidom

# 定义新旧XML文件分别为输入参数1和2

old_file = sys.argv[1]

new_file = sys.argv[2]

# 定义将新增tag加入旧XML文件的方法

def modify_xml(old_file,new_file):

if not new_file:

sys.exit(0)

tree_old = ET.parse(old_file) # 解析出整个ElementTree

tree_new = ET.parse(new_file)

global root # 定义全局变量root,只解析一次方便prettify_xml方法调用

root = tree_old.getroot()

root_old = tree_old.getroot().find("proxool") # 定位旧XML父节点proxool

root_new = tree_new.getroot().find("proxool")

old_dict = {} # 定义旧XML文件的tag/text字典

new_dict = {}

for e in root_old.getiterator(): # 遍历proxool树的所有节点element,包含其作为父节点的自身

# text为空时不能使用replace方法,因此加上判断;if e.text不能排除空字符' ',只能过滤none和''因此加上strip()过滤

if e.text and e.tag != 'proxool' and e.text.strip() != '':

old_dict[e.tag] = e.text.replace("\n", "").replace("\t", "")

for e in root_new.getiterator():

if e.text and e.tag != 'proxool' and e.text.strip() != '':

new_dict[e.tag] = e.text.replace("\n", "").replace("\t", "")

# 至此新旧XML文件的tag/text已经作为字典的元素存在了old_dict和new_dict中,只要比较这两个字典就可以拿到新增tag

for tag,text in new_dict.items():

if not old_dict.get(tag): # 当旧XML中找不到对应的tag时,进行tag新增操作

new_tag = ET.Element(tag) # 构造一个element

new_tag.text = text # 设置此element的text

root_old.append(new_tag) #将此element加入root_old节点下作为其子节点

else:

pass # 只为美观,可以不写else

tree_old.write(old_file + "_fixed",encoding="UTF-8") # 最后将append的整个ElementTree写入旧XML_fixed文件中,这样注释会丢失

# 新写入的XML项不是那么美观,再美化一下(发现结果更难看了,有待优化)

def prettify_xml(filename):

strTree = ET.tostring(root) #使用全局变量root

new_strTree = minidom.parseString(strTree).toprettyxml()

with open(filename,'w') as output:

output.write(new_strTree)

# 执行函数

modify_xml(old_file,new_file)

prettify_xml(old_file + "_fixed")

# Ps:后来发现使用ElementTree解析的XML文件很难美化,且不能处理注释,所以转用minidom处理XML文件了,详见《Python XML解析之DOM》

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园整体解决方案是响应国家教育信息化政策,结合教育改革和技术创新的产物。该方案以物联网、大数据、人工智能和移动互联技术为基础,旨在打造一个安全、高效、互动且环保的教育环境。方案强调从数字化校园向智慧校园的转变,通过自动数据采集、智能分析和按需服务,实现校园业务的智能化管理。 方案的总体设计原则包括应用至上、分层设计和互联互通,确保系统能够满足不同用户角色的需求,并实现数据和资源的整合与共享。框架设计涵盖了校园安全、管理、教学、环境等多个方面,构建了一个全面的校园应用生态系统。这包括智慧安全系统、校园身份识别、智能排课及选课系统、智慧学习系统、精品录播教室方案等,以支持个性化学习和教学评估。 建设内容突出了智慧安全和智慧管理的重要性。智慧安全管理通过分布式录播系统和紧急预案一键启动功能,增强校园安全预警和事件响应能力。智慧管理系统则利用物联网技术,实现人员和设备的智能管理,提高校园运营效率。 智慧教学部分,方案提供了智慧学习系统和精品录播教室方案,支持专业级学习硬件和智能化网络管理,促进个性化学习和教学资源的高效利用。同时,教学质量评估中心和资源应用平台的建设,旨在提升教学评估的科学性和教育资源的共享性。 智慧环境建设则侧重于基于物联网的设备管理,通过智慧教室管理系统实现教室环境的智能控制和能效管理,打造绿色、节能的校园环境。电子班牌和校园信息发布系统的建设,将作为智慧校园的核心和入口,提供教务、一卡通、图书馆等系统的集成信息。 总体而言,智慧校园整体解决方案通过集成先进技术,不仅提升了校园的信息化水平,而且优化了教学和管理流程,为学生、教师和家长提供了更加便捷、个性化的教育体验。
### 回答1: PythonElementTree 模块是一种解析和操作 XML 文档的方式。您可以使用 ElementTree 读取 XML 文件,也可以使用 ElementTree 创建和修改 XML 文档。 以下是 ElementTree 解析 XML 的基本步骤: 1. 导入 ElementTree 模块。 2. 使用 ElementTree 的 parse() 函数打开 XML 文件。 3. 获取根元素。 4. 使用根元素的 find() 或 findall() 方法查找特定元素。 5. 使用元素的 attrib 属性获取元素的属性。 6. 使用元素的 text 属性获取元素的文本。 下面是一个使用 ElementTree 解析 XML 文件的示例代码: ```python import xml.etree.ElementTree as ET # 打开 XML 文件 tree = ET.parse('example.xml') # 获取根元素 root = tree.getroot() # 查找所有 country 元素 for country in root.findall('country'): # 获取 country 元素的属性 name = country.get('name') population = country.get('population') print(name, population) # 查找 country 元素下的 rank 元素 rank = country.find('rank') # 获取 rank 元素的文本 print(rank.text) ``` 这是一个基本的示例代码,您可以根据您的需要进行更改和修改,以实现特定的 XML 解析和操作功能。 ### 回答2: Python ElementTreePython标准库中用于XML解析的模块,他提供了一个简单而有效的方法来解析XML文档并提取相关数据。PythonElementTreePython中提供了一种基于树型结构的解析方式,可以很简单的遍历整个XML文档。 ElementTree提供了Element类,该类代表XML元素。每个XML元素都有指定的标签、属性和子元素,可以使用ElementTreePython中很容易地解析和处理这些元素。 下面是Python ElementTree解析XML的一些常用方法: 1. parse()函数:使用此函数加载XML文件并将其转换为ElementTree对象。 2. Element()函数:使用此函数创建一个新的元素。 3. findall()函数:使用此函数查找所有匹配特定标签的元素。它将返回一个元素列表。 4. find()函数:使用此函数查找第一个匹配特定标签的元素。它将返回一个元素对象。 5. text属性:使用此属性访问元素标记中的文本内容。 6. attrib属性:使用此属性访问元素的属性字典。 7. tag属性:使用此属性访问元素的标签名称。 8. get()方法:使用此方法取得元素的特殊属性。 9. iter()函数:使用此函数可以遍历整个XML文档,一次处理每个元素。 总体而言,Python ElementTree提供了一种非常灵活和强大的方式来解析和处理XML文件。无论是处理大型的、复杂的XML文档,还是处理小型的、简单的XML文件Python ElementTree均能提供一种非常方便、易用和高效的解决方案。 ### 回答3: Python ElementTreePythonXML 解析库, 通过Python ElementTree, 可以轻松地解析和操作 XML 文件。本文将简要介绍如何使用Python ElementTree解析XML文件。 1. 解析XML文件Python中,可以使用ElementTree库的ElementTree.parse()方法解析XML文件,例如: ``` import xml.etree.ElementTree as ET tree = ET.parse('filename.xml') root = tree.getroot() ``` 通过以上代码,我们将XML文件以tree对象的方式进行解析,并得到XML文件的根节点root。此时我们可以通过打印root节点,查看该文件的内部结构。 2. 获取节点数据 一旦我们已经解析XML,我们可以使用Python ElementTree库访问和操作树中的节点数据。最常用的方法即是通过节点的标签名称和属性来访问该节点: ``` root = ET.fromstring(country_data_as_string) for child in root: print(child.tag, child.attrib) ``` 在这个例子中,我们遍历了XML文档中所有节点,打印出它们的标签名称和属性。 3. 查找特定节点 有时候我们只需要获取XML文档中的特定节点。此时可以使用element.find()方法,该方法返回XML文档中tag名称与我们期望的相同的第一个元素。例如: ``` root.find(".//rank/[@year='2011']") ``` 上述代码中,我们使用XPath表达式在根元素之下查找rank元素,并使用一个特定的year属性值过滤这些元素。我们可以将输出与我们所期望的元素进行比较,以确定方法是否有效。 4. 修改XML文件 使用Python ElementTree库,我们可以轻松地修改XML文档中的数据并将其写回到文件中。例如,我们可以使用以下代码将内容写回到XML文件中: ``` tree.write('filename.xml') ``` 如果需要只写入更新后的XML元素,而不是完整的XML文档,则可以使用ElementTree.tostring()方法。例如: ``` xml_string = ET.tostring(root) ``` 在本文中,我们已经简要介绍了如何使用Python ElementTree解析XML和查找特定节点以及修改XML文件Python ElementTree是一个功能强大和灵活的XML解析库,可用于处理各种规模和类型的XML文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值