背景
在使用xml.etree.ElementTree解析xml的时候报错:ValueError: multi-byte encodings are not supported
。一番排查后,发现公司里的这套软件系统,xml文件既有utf-8编码格式,又有GB2312编码格式。这算不算踩坑了???我也没有办法,还是要继续干活。一番百度后,发现了一个比xml.etree.ElementTree更有意思的模块:lxml。这个模块的功能更强大,而且也符合Pyhton优雅的风格。重要的是,这个模块可以解决目前的问题。
lxml是什么
简单的了解下:lxml是Python的一个模块,可以使用pip install安装。不仅用来解析xml,还可以解析html。支持xpath语法。而且,获取xml元素的接口都尽量与xml.etree.ElementTree一致。
来试用下
首先看一份待解析的xml文档:country.xml
<?xml version="1.0"?>
<data>
<country Name="Liechtenstein">
<rank>1</rank>
<year>2008</year>
<gdppc>141100</gdppc>
<neighbor Name="Austria" Direction="E"/>
<neighbor Name="Switzerland" Direction="W"/>
</country>
<country name="Singapore">
<rank>4</rank>
<year>2011</year>
<gdppc>59900</gdppc>
<neighbor name="Malaysia" direction="N"/>
</country>
<country name="Panama">
<rank>68</rank>
<year>2011</year>
<gdppc>13600</gdppc>
<neighbor name="Costa Rica" direction="W"/>
<neighbor name="Colombia" direction="E"/>
</country>
<MediaPlatformService ip="36.32.160.199" port="9084" userName="admin" passWord="111" width="220" height="165">
</MediaPlatformService>
</data>
接下来看看解析xml可以使用的接口,这里展示的接口与xml.etree.ElementTree通用。当然lxml还支持其他接口和方式解析,这里未作总结。
import xml.etree.ElementTree as ET
from lxml import etree
class GetXML:
'提供读取XML文件和读取值得一些方法'
def __init__(self):
pass
def Read(self,xmlfilename):
'将XML文件解析为树,并且得到根节点'
#tree = ET.parse(xmlfilename)
tree = etree.parse(xmlfilename)
self.root = tree.getroot()
return self.root
def Iter(self):
'递归迭代xml文件中所有节点(包含子节点,以及子节点的子节点)'
return self.root.iter()
def FindAll(self,tag):
'查找节点为tag的所有直接子元素'
#直接子元素的意思:只会查找当前节点的子节点那一级目录
return self.root.findall(tag)
def Find(self,tag):
'查找第一个节点为tag的直接子元素'
return self.root.find(tag)
为了便于管理,简单封装了下,可以看出,如果只需要获取xml文件中的元素,使用lxml与使用xml.etree.ElementTree的区别仅仅在于两处代码不同:
第一个不同的地方:
import xml.etree.ElementTree as ET
from lxml import etree
第一个不同的地方:
'将XML文件解析为树,并且得到根节点'
#tree = ET.parse(xmlfilename)
tree = etree.parse(xmlfilename)
对于获取xml元素的接口方法,都是相同的。这让我改起来,不要太方便。
验证下,看看效果
首先验证Element.find方法:
接下来看看Element.findall(tag)方法:
最后看看Element.iter()方法:
综上所述,在xml.etree.ElementTree模块中使用的获取xml元素的方法,在lxml中依然适用。
未完待续
lxml还支持对html的解析,正好工作中还有个需求需要解析html文档,到时完成了再来总结。