Python语言解析xml文件

最新推荐文章于 2020-12-04 03:03:12 发布

wdt3385

最新推荐文章于 2020-12-04 03:03:12 发布

阅读量606

点赞数

分类专栏： xml

python 同时被 2 个专栏收录

342 篇文章 2 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

python语言解析xml文件的常用的有两种方式：

通过MiniDom库解析xml文件
通过ElementTree库解析xml文件

MiniDom方式解析xml

xml文件以data.xml为例，具体操作如下：

data.xml:

<?xml version="1.0" encoding="utf-8"?>

<info>

<intro>保存用户的信息</intro>

<list id='001'>

<head>auto_userone</head>

<name>Jordy</name>

<number>12345678</number>

<age>20</age>

<sex>男</sex>

<hobby>上网</hobby>

</list>

<list id='002'>

<head>auto_usertwo</head>

<name>功夫</name>

<number>34443678</number>

<age>18</age>

<sex>男</sex>

<hobby>功夫</hobby>

</list>

</info>

1. 得到DOM对象

DOM是Document Object Model的简称，它是以对象树来表示一个XML。

import xml.dom.minidom

#得到dom对象

dom = xml.dom.minidom.parse("data.xml")

2. 得到文档元素对象

#得到文档元素对象

root = dom.documentElement #这里得到的是根节点info

#打印根节点的名字节点的值节点类型

print(root.nodeName, root.nodeValue, root.nodeType)

节点的属性：

每一个节点都有它的nodeName，nodeValue，nodeType属性。nodeName为节点名字。

nodeValue是节点的值，只对文本节点有效。nodeType是节点的类型，现在有以下几种：

‘ATTRIBUTE_NODE’

‘CDATA_SECTION_NODE’

‘COMMENT_NODE’

‘DOCUMENT_FRAGMENT_NODE’

‘DOCUMENT_NODE’

‘DOCUMENT_TYPE_NODE’

‘ELEMENT_NODE’

‘ENTITY_NODE’

‘ENTITY_REFERENCE_NODE’

‘NOTATION_NODE’

‘PROCESSING_INSTRUCTION_NODE’

‘TEXT_NODE’

Node.ELEMENT_NODE == 1

Node.ATTRIBUTE_NODE == 2

Node.TEXT_NODE == 3

Node.CDATA_SECTION_NODE == 4

Node.ENTITY_REFERENCE_NODE == 5

Node.ENTITY_NODE == 6

Node.PROCESSING_INSTRUCTION_NODE == 7

Node.COMMENT_NODE == 8

Node.DOCUMENT_NODE == 9

Node.DOCUMENT_TYPE_NODE == 10

Node.DOCUMENT_FRAGMENT_NODE == 11

Node.NOTATION_NODE == 12

3.子元素、子节点的访问

对于已经知道元素名字的子元素，可以通过使用getElementsByTagName()方法访问，例：

root.getElementsByTagName("intro") #读取intro子元素

返回的结果是一个列表。

如果要得到某元素下的所有子节点，可以使用childNodes属性:

root.childNodes

getElementsByTagName()可以搜索当前元素的所有子元素，包括所有层次的子元素。childNodes只保存了当前元素的第一层子结点。

比如：我们想要得到intro元素下的值“保存用户的信息”，实现如下代码：

node = root.getElementsByTagName("intro")[0]

for node in node.childNodes:

if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):

print (node.data)

这种方式在获取元素的文本时，需要先判断才行，所以使用起来感觉不是太方便。

ElementTree库解析xml文件

ElementTree属于python标准库的一部分,ElementTree的parse()方法是这个库的主要入口，它使用文件名或流对象作为参数，parse()方法会立即解析完整个文档，它返回的对象是整个文档的对象，而不是根元素，如果要获取根元素，可以调用getroot()方法。

使用上述的data.xml文档，通过ElementTree库解析的代码：

import xml.etree.ElementTree as ET

#读取xml文件 def load_xml_file(fileName):

root = ET.parse(fileName).getroot()

#获取文件描述

intro = root.find('intro').text

print(intro)

#获取所有list节点 all_users = root.findall('list')

#遍历list节点的子元素

for user in all_users:

#得到head节点的文本

head = user.find('head').text

#得到name节点的文本

name = user.find('name').text

#得到sex节点的文本

sex = user.find('sex').text

print(head, name, sex)

if __name__ == '__main__':

load_xml_file('data.xml')

通过这种方式解析xml文件比起使用minidom库解析xml文件的，操作要方便的多。

作者： Shane
出处： http://bluescorpio.cnblogs.com

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python语言解析xml文件

python语言解析xml文件的常用的有两种方式：通过MiniDom库解析xml文件通过ElementTree库解析xml文件MiniDom方式解析xml xml文件以data.xml为例，具体操作如下：data.xml: 保存用户的信息 auto_userone Jordy 1234567
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。