Python基础_SAX解析文件

最新推荐文章于 2023-03-24 14:44:26 发布

划过天空

最新推荐文章于 2023-03-24 14:44:26 发布

阅读量682

点赞数 2

分类专栏： Python学习文章标签： python xml sax解析

本文链接：https://blog.csdn.net/qq_32895695/article/details/50086055

版权

本文介绍了Python中使用SAX解析XML的方法，强调了SAX解析器在处理大型XML文件时的效率和内存优势。通过xml.sax模块，利用parse函数和自定义ContentHandler进行解析。给出了两个示例，第一个是简单的XML文件解析，第二个是将XML文件转换成HTML网页的复杂示例，展示了如何处理开始元素、结束元素和字符数据。

摘要由CSDN通过智能技术生成

SAX与DOM解析xml是不同的，前者注重效率，减少内存压力，但是一次性解析部分数据，其是通过事件监听，来对xml文件进行解析；后者则可一次性解析全部数据，只是对内存有所要求。

python中需导入xml.sax来对文件进行解析，通过parse(文件，handler)对其解析，handler可自定义，即parse.setContentHandler(myHandler)来设置处理器。

原理：

parse函数在处理xml文件的时候，会调用xxxHandler中的startElement函数和endElement函数来处理xml中的标签的开始和结束，中间的过程使用一个名为characters的函数来处理标签内部的所有字符串。

例一对xml进行解析（易）：

1、xml.xml:

<?xml version="1.0"?>
<collection shelf="New Arrivals">
    <movie title="Enemy Behind">
       <type>War, Thriller</type>
       <format>DVD</format>
    </movie>
    <movie title="Transformers">
       <type>Anime, Science Fiction</type>
       <format>DVD</format>
</collection>

2、parse.py如下代码:(解析xml文件)

import xml.sax

class myHandler(xml.sax.ContentHandler):
   def __init__(self):
       self.CurrentData=''
       self.type=''
       self.format=''
       self.title=''

   def startElement(self,tag,attributes):
       self.CurrentData=tag
       if self.CurrentData=='movie':
               title=attributes[