Python 进阶：XML 基本操作

最新推荐文章于 2024-08-01 09:25:57 发布

EchoPython

最新推荐文章于 2024-08-01 09:25:57 发布

阅读量233

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/qq_42992919/article/details/112717611

版权

Python 专栏收录该内容

322 篇文章 6 订阅

订阅专栏

本文介绍了Python中处理XML的三种方法：DOM、SAX和ElementTree。通过示例展示了如何创建XML文档并写入数据，然后详细解释了如何使用DOM、SAX和ElementTree解析XML文件，提取学生信息。对于XML新手，这是一篇很好的学习资源。

摘要由CSDN通过智能技术生成

Python 进阶：XML 基本操作

1. 概述
XML（Extensible Markup Language）中文译为可扩展标记语言，它是一种简单、灵活、易扩展的文本格式，它主要关注数据内容，常用来传送、存储数据。

当通过 XML 来传送数据时，自然会涉及到 XML 的解析工作，通常 Python 可以通过如下三种方式来解析 XML：

DOM：DOM 方式会将整个 XML 读入内存，在内存中解析成一个树，通过对树的操作来操作 XML，该方式占用内存较大，解析速度较慢。

SAX：SAX 方式逐行扫描 XML 文档，边扫描边解析，占用内存较小，速度较快，缺点是不能像 DOM 方式那样长期留驻在内存，数据不是长久的，事件过后，若没保存数据，数据会丢失。

ElementTree：ElementTree 方式几乎兼具了 DOM 方式与 SAX 方式的优点，占用内存较小、速度较快、使用也较为简单。

2. 写入
首先，我们通过 Python 创建一个 XML 文档并向其中写入一些数据，实现代码如下所示：

from xml.etree import ElementTree as et
import xml.dom.minidom as minidom

# 创建根节点 
root = et.Element('school')
names = ['张三', '李四']
genders = ['男', '女']
ages = ['20', '18']
# 添加子节点
student1 = et.SubElement(root, 'student')
student2 = et.SubElement(root, 'student')
et.SubElement(student1, 'name').text = names[0]
et.SubElement(student1, 'gender').text = genders[0]
et.SubElement(student1, 'age').text = ages[0]
et.SubElement(student2, 'name').text = names[1]
et.SubElement(student2, 'gender').text = genders[1]
et.SubElement(student2, 'age').text = ages[1]
# 将根目录转化为树行结构
tree = et.ElementTree(root)
rough_str = et.tostring(root, 'utf-8')
# 格式化
reparsed = minidom.parseString(rough_str)
new_str = reparsed.toprettyxml(indent='\t')
f = open('test.xml', 'w', encoding='utf-8')
# 保存
f.write(new_str)
f.close()

看一下效果：
在这里插入图片描述
3. 解析
我们分别使用 DOM、SAX、ElementTree 方式解析上面生成的 XML 文件。

3.1 DOM 方式

看一下如何通过 DOM 方式进行解析，实现代码如下所示：

from xml.dom.minidom import parse

# 读取文件
dom = parse('test.xml')
# 获取文档元素对象
elem = dom.documentElement
# 获取 student
stus = elem.getElementsByTagName('student')
for stu in stus:
    # 获取标签中内容
    name = stu.getElementsByTagName('name')[0].childNodes[0].nodeValue
    gender = stu.getElementsByTagName('gender')[0].childNodes[0].nodeValue
    age = stu.getElementsByTagName('age')[0].childNodes[0].nodeValue
    print('name:', name, ', gender:', gender, ', age:', age)

执行结果：

name: 张三 , gender: 男 , age: 20
name: 李四 , gender: 女 , age: 18

3.2 SAX 方式

看一下如何通过 SAX 方式进行解析，实现代码如下所示：

import xml.sax

class StudentHandler(xml.sax.ContentHandler):
    def __init__(self):
        self.name = ''
        self.age = ''
        self.gender = ''

    # 元素开始调用
    def startElement(self, tag, attributes):
        self.CurrentData = tag

    # 元素结束调用
    def endElement(self, tag):
        if self.CurrentData == 'name':
            print('name:', self.name)
        elif self.CurrentData == 'gender':
            print('gender:', self.gender)
        elif self.CurrentData == 'age':
            print('age:', self.age)
        self.CurrentData = ''

    # 读取字符时调用
    def characters(self, content):
        if self.CurrentData == 'name':
            self.name = content
        elif self.CurrentData ==  'gender':
            self.gender = content
        elif self.CurrentData ==  'age':
            self.age = content

if (__name__ == "__main__"):
    # 创建 XMLReader
    parser = xml.sax.make_parser()
    # 关闭命名空间
    parser.setFeature(xml.sax.handler.feature_namespaces, 0)
    # 重写 ContextHandler
    Handler = StudentHandler()
    parser.setContentHandler(Handler)
    parser.parse('test.xml')

执行结果：

name: 张三
gender: 男
age: 20
name: 李四
gender: 女
age: 18

3.3 ElementTree 方式

看一下如何通过 ElementTree 方式进行解析，实现代码如下所示：

import xml.etree.ElementTree as et

tree = et.parse('test.xml')
# 根节点
root = tree.getroot()
for stu in root:
    print('name:', stu[0].text, ', gender:', stu[1].text, ', age:', stu[2].text)

执行结果：

name: 张三 , gender: 男 , age: 20
name: 李四 , gender: 女 , age: 18

EchoPython

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录