Python3 lxml解析XML 解决GBK编码问题ValueError: multi-byte encodings are not supported

最新推荐文章于 2024-04-06 13:16:02 发布

阿刁阿

最新推荐文章于 2024-04-06 13:16:02 发布

阅读量8k

点赞数 6

分类专栏： Python

本文链接：https://blog.csdn.net/lc_buzhidao/article/details/99683863

版权

Python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

背景

在使用xml.etree.ElementTree解析xml的时候报错：ValueError: multi-byte encodings are not supported。一番排查后，发现公司里的这套软件系统，xml文件既有utf-8编码格式，又有GB2312编码格式。这算不算踩坑了？？？我也没有办法，还是要继续干活。一番百度后，发现了一个比xml.etree.ElementTree更有意思的模块：lxml。这个模块的功能更强大，而且也符合Pyhton优雅的风格。重要的是，这个模块可以解决目前的问题。

lxml是什么

简单的了解下：lxml是Python的一个模块，可以使用pip install安装。不仅用来解析xml，还可以解析html。支持xpath语法。而且，获取xml元素的接口都尽量与xml.etree.ElementTree一致。

来试用下

首先看一份待解析的xml文档：country.xml

<?xml version="1.0"?>
<data>
	<country Name="Liechtenstein">
		<rank>1</rank>
		<year>2008</year>
		<gdppc>141100</gdppc>
		<neighbor Name="Austria" Direction="E"/>
		<neighbor Name="Switzerland" Direction="W"/>
	</country>
	<country name="Singapore">
		<rank>4</rank>
		<year>2011</year>
		<gdppc>59900</gdppc>
		<neighbor name="Malaysia" direction="N"/>
	</country>
	<country name="Panama">
		<rank>68</rank>
		<year>2011</year>
		<gdppc>13600</gdppc>
		<neighbor name="Costa Rica" direction="W"/>
		<neighbor name="Colombia" direction="E"/>
	</country>
	<MediaPlatformService ip="36.32.160.199" port="9084" userName="admin" passWord="111" width="220" height="165">
	</MediaPlatformService>
</data>

接下来看看解析xml可以使用的接口，这里展示的接口与xml.etree.ElementTree通用。当然lxml还支持其他接口和方式解析，这里未作总结。

import xml.etree.ElementTree as ET
from lxml import etree

class GetXML:
	'提供读取XML文件和读取值得一些方法'
	def __init__(self):
		pass

	def Read(self,xmlfilename):
		'将XML文件解析为树,并且得到根节点'
		#tree = ET.parse(xmlfilename)
		tree = etree.parse(xmlfilename)
		self.root = tree.getroot()
		return self.root

	def Iter(self):
		'递归迭代xml文件中所有节点（包含子节点，以及子节点的子节点）'
		return self.root.iter()

	def FindAll(self,tag):
		'查找节点为tag的所有直接子元素'
		#直接子元素的意思：只会查找当前节点的子节点那一级目录
		return self.root.findall(tag)

	def Find(self,tag):
		'查找第一个节点为tag的直接子元素'
		return self.root.find(tag)

为了便于管理，简单封装了下，可以看出，如果只需要获取xml文件中的元素，使用lxml与使用xml.etree.ElementTree的区别仅仅在于两处代码不同：
第一个不同的地方：

import xml.etree.ElementTree as ET
from lxml import etree

第一个不同的地方：

'将XML文件解析为树,并且得到根节点'
		#tree = ET.parse(xmlfilename)
		tree = etree.parse(xmlfilename)

对于获取xml元素的接口方法，都是相同的。这让我改起来，不要太方便。

验证下，看看效果

首先验证Element.find方法：
在这里插入图片描述
接下来看看Element.findall(tag)方法：

最后看看Element.iter()方法：

综上所述，在xml.etree.ElementTree模块中使用的获取xml元素的方法，在lxml中依然适用。

未完待续

lxml还支持对html的解析，正好工作中还有个需求需要解析html文档，到时完成了再来总结。

阿刁阿

关注

6
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
Python3 lxml解析XML 解决GBK编码问题ValueError: multi-byte encodings are not supported

背景在使用xml.etree.ElementTree解析xml的时候报错：ValueError: multi-byte encodings are not supported。一番排查后，发现公司里的这套软件系统，xml文件既有utf-8编码格式，又有GB2312编码格式。这算不算踩坑了？？？我也没有办法，还是要继续干活。一番百度后，发现了一个比xml.etree.ElementTree更有意思...
复制链接

扫一扫