什么是XML?
XML 指可扩展标记语言(eXtensible Markup Language),标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。
XML 被设计用来传输和存储数据。
XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。
它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。
python对XML的解析
常见的XML编程接口有DOM和SAX,这两种接口处理XML文件的方式不同,当然使用场合也不同。
python有三种方法解析XML,SAX,DOM,以及ElementTree:
XML:跨平台
是一种标记语言,很类似HTML
设计宗旨是传输数据,而非显示数据
没有预定义,需要自定义标签
被设计为具有自我描述性
是W3C的推荐标准
传输数据比较少,大的数据只能用数据库存储,一般来说存储配置文件
1.SAX解析:事件驱动解析。不会在内存中加载整个文档,只会根据自己编写的事件保存数据
案列:
from xml.sax import ContentHandler from xml.dom.minidom import parse import parser class Book: def __init__(self,bname=None,price=None,author=None): self.bname=bname self.price=price self.author=author def __str__(self): return '书名:{0} 价格:{1} 作者:{2}'.format(self.bname,self.price,self.author) lst=[] class mysaxxml(ContentHandler): def __init__(self,bok=None,tag=None): self.bok=bok self.tag=tag def startDocument(self): print('startDocument') def startElement(self, name, attrs): # 将一开始得到的元素节点名字赋值给tag self.tag=name # 开始时碰见标记book时创建对象并赋值给bok if name=='book': self.bok=Book() print('startElement') def characters(self, content): # tag获取到的标签分别判断,判断后再赋值 if self.tag=='bname': self.bok.bname=content if self.tag=='price': self.bok.bname=content if self.tag=='author': self.bok.bname=content print('characters') def endElement(self, name): # 元素节点结束时如果遇到结尾的book,那么将这个对象添加到这个列表中,对象里面有3个属性值 if name=='book': lst.append(self.bok) self.bok=None # 每判断一次属性就要将tag清空,比如先判断dname后,那么清空后它又能接着放price了 self.tag=None print('endElement') def endDocument(self): print('endDocument') bk=mysaxxml() parse('../domxml/zy_1.xml',bk) for i in lst: print(i)
因为sax解析只是加载部分需要的文档,所以可以根据自己编译的事件来加载,不过我们要先导入ContentHandler类,我们要继承ContentHandler下面的五个方法,并将它重写,这五个方法分别是文档启动时调用的startDocument()方法、遇到XML开始标签时调用的startElement(name, attrs)方法、读取标签内容的characters(content)方法、XML结束标签时调用的endElement(name)方法、文档结尾时调用的endDocument()方法。
相比我们应该知道这五个方法调用的先后顺序吧,顺序:文档开始、元素标签开始、标签内容、元素结尾、文档结尾,这样一看,是不是很清晰了呢
在startElement(name, attrs)方法中,我们先获取到我们要解析的XML的根节点,一开始自己定义的Bok类来将我们要解析的XML文档里面的内容格式化一下,然后在判断一下我们获取的根节点是否是我们需要解析的那个根节点,接着我们就新建一个对象来接收我们解析后的值,在characters(content)方法中将节点里面的内容一一解析,并将解析的值赋值给我们的对象,并且在endElement(name)方法中将赋值后的对象添加到我们的列表中保存下来,每添加一个元素我们都要将其清空,以便存接下里的元素,我们读取节点里面的每个元素都要调用startElement(name, attrs)方法、读取标签内容的characters(content)方法、XML结束标签时调用的endElement(name)方法。
之后我们再将存在列表里面的对象分别输出就好了,因为我们在类里面定义了str方法,所以输出时每个对象都会自动调用str方法,这样输出时不至于是一个地址。
2.dom解析:文档对象模型,把解析的xml整个加载到内存,组织成object树。这种方法遍历快,这种方法在加载过程中和sax有显著区别一个是部分加载,另一个是全部加载。
案列:
# DOM解析 from xml.dom.minidom import parse # 得到整个dom文档树 doc=parse('./domxml/xl_1.xml') # 得到根节点 root=doc.documentElement # 根据标签名获取 student=root.getElementsByTagName('stu') for p in student: # 得到stduent下面的name # 为什么('name')[0]后面还要加childNodes[0].data呢,不是直接.data,因为他以为后面还是节点,所以要获取 print(p.getElementsByTagName('name')[0].childNodes[0].data) print(p.getElementsByTagName('age')[0].childNodes[0].data) print(p.getElementsByTagName('sex')[0].childNodes[0].data) print(p.getElementsByTagName('cj')[0].childNodes[0].data)
3.ElementTree解析,也叫元素树解析,和DOM解析差不多,不过方法要比DOM简单
案列:
# 元素树ElementTree解析 from xml.etree.ElementTree import* class Student: def __init__(self,name,age,sex,cj): self.name=name self.age=age self.sex=sex self.cj=cj def __str__(self): return '姓名:{0} 年龄:{1} 性别:{2} 成绩:{3}'.format(self.name,self.age,self.sex,self.cj) root=parse('./domxml/xl_1.xml') people=root.findall('stu') lst=[] for p in people: person=Student(1,2,3,4)#一开始在类的定义中没有设置空值,所以这里可以随便传4个参数进去 person.name=p.find('name').text person.age = p.find('age').text person.sex = p.find('sex').text person.cj = p.find('cj').text lst.append(person) for i in lst: print(i)dom解析和元素树解析差不多就是这样,都是通过获取根节点然后根据子节点一个个找,节点相当于树枝,而节点里面的字符串(值)就相当于树叶,要说这两个和SAX解析的区别,就那个parse解析那里不传对象过去,而是用一个变量来接收。差不多就是这样的啦,有一些漏了的地方可以去百度,我也只是写了一点点而已,这三种解析差不多就是这样的步骤和流程。