Python之xml解析

最新推荐文章于 2022-06-09 13:21:06 发布

xppke

最新推荐文章于 2022-06-09 13:21:06 发布

阅读量436

点赞数

分类专栏： python 文章标签： xml解析

本文链接：https://blog.csdn.net/appke846/article/details/80682893

版权

python 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

python有三种方法解析XML，SAX，DOM，以及ElementTree:

1.SAX (simple API for XML )

python 标准库包含SAX解析器，SAX用事件驱动模型，通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。

2.DOM(Document Object Model)

将XML数据在内存中解析成一个树，通过对树的操作来操作XML。

xml.dom.minidom 模块被用来处理xml文件

parse():用于打开一个xml文件

documentElement：用于得到dom对象的文档元素，并将获得的对象给root，每一个结点都有它的nodeName,nodeValue,nodeType属性

*使用parse()或createDocument()返回的为DOM对象；
*使用DOM的documentElement属性可以获得Root Element;
*DOM为树形结构，包含许多的nodes，其中element是node的一种，可以包含子elements，textNode也是node的一种，是最终的子节点；
*每个node都有nodeName，nodeValue，nodeType属性，nodeValue是结点的值，只对textNode有效。对于textNode，想得到它的文本内容可以使用: .data属性。

*getElementsByTagName()可以根据名字来查找子elements；
*childNodes返回所有的子Nodes，其中所有的文本均为textNode，包含元素间的‘\n\r’和空格均为textNode；

*writexml()时addindent=' '表示子元素的缩进，newl='\n'表示元素间的换行，encoding='utf-8'表示生成的xml的编码格式（<?xml version="1.0" encoding="utf-8"?>）。

  from xml.dom import minidom
  doc = minidom.parse("employees.xml")
  
  # get root element: <employees/>
  root = doc.documentElement
  
  # get all children elements: <employee/> <employee/>
  employees = root.getElementsByTagName("employee")

3.ElementTree(元素树)

ElementTree就像一个轻量级的DOM，具有方便友好的API。代码可用性好，速度快，消耗内存少。

注：因DOM需要将XML数据映射到内存中的树，一是比较慢，二是比较耗内存，而SAX流式读取XML文件，比较快，占用内存少，但需要用户实现回调函数（handler）。

ElementTree生来就是为了处理XML，它在Python标准库中有两种实现：一种是纯Python实现的，如xml.etree.ElementTree，另一种是速度快一点的xml.etree.cElementTree。注意：尽量使用C语言实现的那种，因为它速度更快，而且消耗的内存更少。

ElementTree解析XML文件的过程：

导入ElementTree，import xml.etree.ElementTree as ET

解析Xml文件找到根节点：直接解析XML文件并获得根节点，tree = ET.parse('country_data.xml') root = tree.getroot()

或者解析字符串，root = ET.fromstring(country_data_as_string)

遍历根节点可以获得子节点，然后就可以根据需求拿到需要的字段了

import xml.etree.ElementTree as ET 
tree = ET.parse('country_data.xml') 
root = tree.getroot() 
print('root-tag:',root.tag,',root-attrib:',root.attrib,',root-text:',root.text) 
for child in root: 
    print('child-tag是：',child.tag,',child.attrib：',child.attrib,',child.text：',child.text) 
    for sub in child: 
        print('sub-tag是：',sub.tag,',sub.attrib：',sub.attrib,',sub.text：',sub.text)