python解析xml文件中文_Python语言解析xml文件

python语言解析xml文件的常用的有两种方式: 通过MiniDom库解析xml文件

通过ElementTree库解析xml文件

MiniDom方式解析xml

xml文件以data.xml为例,具体操作如下:

data.xml:

保存用户的信息

Jordy

12345678

20

上网

功夫

34443678

18

功夫

1.得到DOM对象

DOM是Document Object Model的简称,它是以对象树来表示一个XML。

import xml.dom.minidom

#得到dom对象dom = xml.dom.minidom.parse("data.xml")

2.得到文档元素对象

#得到文档元素对象root = dom.documentElement  #这里得到的是根节点info

#打印根节点的名字节点的值节点类型print(root.nodeName, root.nodeValue, root.nodeType)

节点的属性:

每一个节点都有它的nodeName,nodeValue,nodeType属性。nodeName为节点名字。

nodeValue是节点的值,只对文本节点有效。nodeType是节点的类型,现在有以下几种:

‘ATTRIBUTE_NODE’

‘CDATA_SECTION_NODE’

‘COMMENT_NODE’

‘DOCUMENT_FRAGMENT_NODE’

‘DOCUMENT_NODE’

‘DOCUMENT_TYPE_NODE’

‘ELEMENT_NODE’

‘ENTITY_NODE’

‘ENTITY_REFERENCE_NODE’

‘NOTATION_NODE’

‘PROCESSING_INSTRUCTION_NODE’

‘TEXT_NODE’

Node.ELEMENT_NODE == 1

Node.ATTRIBUTE_NODE == 2

Node.TEXT_NODE == 3

Node.CDATA_SECTION_NODE == 4

Node.ENTITY_REFERENCE_NODE == 5

Node.ENTITY_NODE == 6

Node.PROCESSING_INSTRUCTION_NODE == 7

Node.COMMENT_NODE == 8

Node.DOCUMENT_NODE == 9

Node.DOCUMENT_TYPE_NODE == 10

Node.DOCUMENT_FRAGMENT_NODE == 11

Node.NOTATION_NODE == 12

3.子元素、子节点的访问

对于已经知道元素名字的子元素,可以通过使用getElementsByTagName()方法访问,例:

root.getElementsByTagName("intro") #读取intro子元素

返回的结果是一个列表。

如果要得到某元素下的所有子节点,可以使用childNodes属性:root.childNodes

getElementsByTagName()可以搜索当前元素的所有子元素,包括所有层次的子元素。childNodes只保存了当前元素的第一层子结点。

比如:我们想要得到intro元素下的值“保存用户的信息”,实现如下代码:

node = root.getElementsByTagName("intro")[0]

for node in node.childNodes:

if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):

print(node.data)

这种方式在获取元素的文本时,需要先判断才行,所以使用起来感觉不是太方便。

ElementTree库解析xml文件

ElementTree属于python标准库的一部分,ElementTree的parse()方法是这个库的主要入口,它使用文件名或流对象作为参数,parse()方法会立即解析完整个文档,它返回的对象是整个文档的对象,而不是根元素,如果要获取根元素,可以调用getroot()方法。

使用上述的data.xml文档,通过ElementTree库解析的代码:

import xml.etree.ElementTree as ET

#读取xml文件def load_xml_file(fileName):

root = ET.parse(fileName).getroot()

#获取文件描述

intro = root.find('intro').text

print(intro)

#获取所有list节点all_users = root.findall('list')

#遍历list节点的子元素

for user in all_users:

#得到head节点的文本

head = user.find('head').text

#得到name节点的文本

name = user.find('name').text

#得到sex节点的文本

sex = user.find('sex').text

print(head, name, sex)

if __name__ == '__main__':

load_xml_file('data.xml')

通过这种方式解析xml文件比起使用minidom库解析xml文件的,操作要方便的多。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python中有多种库可以用来解析XML文件并将其转换为JSON格式,其中最常用的是`xml.etree.ElementTree`库和`dicttojson`或者`python-dotenv`库结合`json`库。 1. 使用`xml.etree.ElementTree`库: ```python import json import xml.etree.ElementTree as ET def xml_to_dict(element): if len(element) == 0: return element.text result = {} for child in element: child_data = xml_to_dict(child) if child.tag in result: if type(result[child.tag]) is list: result[child.tag].append(child_data) else: result[child.tag] = [result[child.tag], child_data] else: result[child.tag] = child_data return result def xml_to_json(xml_file_path, json_file_path): tree = ET.parse(xml_file_path) root = tree.getroot() data = xml_to_dict(root) with open(json_file_path, 'w') as f: json.dump(data, f, indent=4) # 示例 xml_to_json('your_xml_file.xml', 'output.json') ``` 2. 使用`dicttojson`库: ```python from dicttojson import dicttojson def parse_xml_to_json(xml_content): # 首先需要将XML字符串转换为ElementTree对象 from xml.dom.minidom import parseString dom = parseString(xml_content) root = dom.documentElement return dicttojson(root) # 示例 with open('your_xml_file.xml', 'r') as f: xml_string = f.read() json_output = parse_xml_to_json(xml_string) print(json.dumps(json_output, indent=4)) ``` 注意替换`'your_xml_file.xml'`为你的实际XML文件路径。执行后,你会得到一个JSON格式的数据结构,然后你可以选择保存到文件或者直接操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值