浅析使用SAX解析XML

原创 2015年07月09日 23:44:41

浅析使用SAX解析XML

1. 概述

Java解析XML通常有两种方式,DOM和SAX。DOM虽然是W3C的标准,提供了标准的解析方式,但它的解析效率一直不尽如人意,因为使用DOM解析XML时,解析器读入整个文档并构建一个驻留内存的树结构(节点树),然后您的代码才可以使用DOM的标准接口来操作这个树结构。但大部分情况下我们只对文档的部分内容感兴趣,根本就不用先解析整个文档,并且从节点树的根节点来索引一些我们需要的数据也是非常耗时的。

SAX是一种XML解析的替代方法。相比于文档对象模型DOM,SAX是读取和操作XML数据的更快速、更轻量的方法。SAX允许您在读取文档时处理它,从而不必等待整个文档被存储之后才采取操作。它不涉及DOM所必需的开销和概念跳跃。

SAX解析XML文档采用事件驱动模式。什么是事件驱动模式?它将XML文档转换成一系列的事件,由单独的事件处理器来决定如何处理。

基于事件驱动的处理模式主要是基于事件源和事件处理器(或者叫监听器)来工作的。一个可以产生事件的对象叫做事件源,而一个可以针对事件做出响应的对象就被叫做事件处理器。

以下介绍使用SAX来解析XML,如果您对DOM解析感兴趣,请自行查阅相关资料。

2. API

SAX API是一个基于事件的API,适用于处理数据流,即随着数据的流动而依次处理数据。

下面介绍类库中常用到的接口与类。

2.1 ContentHandler接口

接口作用:用于接收XML文档逻辑内容的通知的处理器接口。这是我们做XML的SAX解析最常用到的接口。

该接口中常用的方法:

    /* 
     * 接收字符数据的通知。 
     * 在DOM中,ch数组从begin位置开始,长度为length的元素,
     * 相当于Text节点的节点值(nodeValue) 
     */
    public void characters(char[] ch, int begin, int length) throws SAXException;

    /* 
     * 接收元素结束的通知。 
     * 参数意义如下: 
     *    uri:元素的命名空间 
     *    localName:元素的本地名称
     *    qName:元素的限定名
     *  
     */  
    public void endElement (String uri, String localName, String qName) 
    throws SAXException;

    /* 
     * 接收文档的开始的通知。 
     */ 
    public void startDocument () throws SAXException;

    /* 
     * 接收元素开始的通知。 
     * 参数意义如下:
     *    uri:元素的命名空间
     *    localName:元素的本地名称(不带前缀)
     *    qName:元素的限定名(带前缀) 
     *    atts:元素的属性集合
     */
    public void startElement (String uri, String localName, String qName, Attributes atts)
    throws SAXException;

2.2 DTDHandler 接口

接口作用:用于接收与DTD相关的事件的通知的处理器接口。

2.3 EntityResolver接口

接口作用:用于解析实体的基本接口。

2.4 ErrorHandler接口

接口作用:是用于错误处理程序的基本接口。

2.5 DefaultHandler类

实际上DefaultHandler就是实现了前述的四个事件处理器接口,然后提供了每个抽象方法的默认实现。

我们在使用SAX时,一般都是继承自DefaultHandler,然后实现需要的方法,而保持其他方法默认实现。

2.6 SAXParser

SAX解析器,此类的实例可以从SAXParserFactory.newSAXParser() 方法获得。获取此类的实例之后,将可以从各种输入源解析XML。

简单示例:

xml文件:

<employees>
    <employee id="1">
        <name>小明</name>
        <age>29</age>
        <address>四川成都</address>
    </employee>
    <employee id="2">
        <name>老骆</name>
        <age>35</age>
        <address>四川成都</address>
    </employee>
</employees>

处理器类:

package com.demo;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

/**
 * 处理器类
 * 
 * @author 小明
 *
 */
public class MyHandler extends DefaultHandler {

    // 存储单个解析(employee)的完整对象
    private Map<String, String> map;
    // 存储所有解析(employees)的完整对象
    private List<Map<String, String>> list;
    // 当前正在解析的元素的标签名
    private String currentTag;
    // 当前正在解析的元素的值
    private String currentValue;
    // 当前需要解析的元素的节点名称
    private String nodeName;

    public MyHandler(String nodeName) {
        super();
        this.nodeName = nodeName;
    }

    public List<Map<String, String>> getList() {
        return list;
    }

    /**
     * 当读取到xml文档准备开始解析的时候,这时会触发这个方法的执行
     */
    @Override
    public void startDocument() throws SAXException {
        list = new ArrayList<Map<String, String>>();
    }

    /**
     * 当遇到元素开始的时候,调用这个方法
     */
    @Override
    public void startElement(String uri, String localName, String qName,
            Attributes attributes) throws SAXException {
        if (qName.equals(nodeName)) { // 是当前需要解析的节点,则创建Map对象
            map = new HashMap<String, String>();
        }
        if (attributes != null && map != null) { // map对象存在,且节点有属性,则映射属性名与属性值
            for (int i = 0; i < attributes.getLength(); i++) {
                map.put(attributes.getQName(i), attributes.getValue(i));
            }
        }
        currentTag = qName; // 当前解析的节点名称
    }

    /**
     * 这个方法是用来处理xml文本节点所读取到的内容
     */
    @Override
    public void characters(char[] ch, int start, int length)
            throws SAXException {
        if (currentTag != null && map != null) { // 有解析到节点,且map不为空
            currentValue = new String(ch, start, length); // 转换文本节点值
            if (currentValue != null && !"".equals(currentValue.trim())
                    && !"\n".equals(currentValue.trim())) { // 文本节点值不为空,则映射节点名称与节点文本值
                map.put(currentTag, currentValue);
            }
        }

        currentTag = null;
        currentValue = null;
    }

    /**
     * 遇到结束标记的时候会调用这个方法
     */
    @Override
    public void endElement(String uri, String localName, String qName)
            throws SAXException {
        if (qName.equals(nodeName)) { // 需要解析的节点解析完毕,则将已解析得到的单个完整对象添加到list中保存
            list.add(map);
            map = null; // map置空
        }
    }
}

服务类:

package com.demo;

import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.util.List;
import java.util.Map;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.SAXException;

/**
 * 解析服务类
 * 
 * @author 小明
 *
 */
public class SAXService {

    /**
     * 解析XML节点
     * 
     * @param in
     *            待解析的XML输入流
     * @param nodeName
     *            待解析的节点名称
     * @return 完整解析列表
     */
    public static List<Map<String, String>> readXML(InputStream in,
            String nodeName) {
        // 创建一个用于SAX解析的工厂对象
        SAXParserFactory factory = SAXParserFactory.newInstance();
        try {
            // 从工厂中创建SAX解析器对象
            SAXParser parser = factory.newSAXParser();
            // 使用解析器解析需要先创建DefaultHandler引用的对象
            MyHandler handler = new MyHandler(nodeName);
            // 解析
            parser.parse(in, handler);
            // 释放流资源
            in.close();
            // 返回解析结果列表
            return handler.getList();
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }

    /**
     * 解析XML节点
     * 
     * @param file
     *            待解析的xml文件对象
     * @param nodeName
     *            待解析的节点名称
     * @return 完整解析列表
     */
    public static List<Map<String, String>> readXML(File file, String nodeName) {
        // 创建一个用于SAX解析的工厂对象
        SAXParserFactory factory = SAXParserFactory.newInstance();
        try {
            // 从工厂中创建SAX解析器对象
            SAXParser parser = factory.newSAXParser();
            // 使用解析器解析需要先创建DefaultHandler引用的对象
            MyHandler handler = new MyHandler(nodeName);
            // 解析
            parser.parse(file, handler);
            // 返回解析结果列表
            return handler.getList();
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }
}

测试类:

package com.demo;

import java.io.File;
import java.util.List;
import java.util.Map;

public class SaxDemo {

    public static void main(String[] args) {
        File file = new File("demo.xml");
        List<Map<String, String>> list = SAXService.readXML(file, "employee");
        for (Map<String, String> map : list) {
            System.out.println(map);
        }
    }
}
版权声明:本文为博主原创文章,未经博主允许不得转载。

简单SAX解析详解全过程

SAX解析: Java JDK自带的解析(SAXParserFactory SAXPaeser DefaultHandler) 特点:一行一行的往下面执行解析的 startDocment starte...
  • lsh364797468
  • lsh364797468
  • 2016年05月05日 19:13
  • 2144

理解SAX解析xml的工作原理

摘要: SAX以事件流来解析xml,边读边触发事件函数完成解析,适用于较大XML; DOM加载整个xml文件,最终在内存中创建一个DOM树,适合小XML文件,操作DOM节点比较简便。 dom比较好理解...
  • u011854789
  • u011854789
  • 2017年01月02日 16:17
  • 1113

SAX解析XML的原理

1、简介 SAX是一个用于处理XML事件驱动的“推”模型,虽然它不是W3C标准,但它却是一个得到了广泛认可的API。SAX解析器不像DOM那样建立一个完整的文档树,而是在读取文档时激活一系列事件,这些...
  • yeyi19881126
  • yeyi19881126
  • 2016年05月11日 22:51
  • 233

java解析xml 之SAX 解析方式原理

Java 对xml 数据的解析 HTTP 网络传输中的数据组织方式有三种: 1:HTML 方式 2:XML方式 3:JSON 方式 XML :称为可扩展标记语言,他与HTML 一样,都是通用...
  • WannerWang
  • WannerWang
  • 2016年02月19日 17:13
  • 639

sax解析XML文件存在系统级内存泄露

今天使用sax处理一个1G大小的XML文件时发现sax出现了200M的内存泄露,Java虚拟机无法回收。 不过sax的内存泄露量与处理的XML文件大小相关,XML越大泄露越多。 希望对正在...
  • u011144681
  • u011144681
  • 2014年01月20日 22:01
  • 1037

浅析使用SAX解析XML

浅析使用SAX解析XML1. 概述Java解析XML通常有两种方式,DOM和SAX。DOM虽然是W3C的标准,提供了标准的解析方式,但它的解析效率一直不尽如人意,因为使用DOM解析XML时,解析器读入...
  • zhliro
  • zhliro
  • 2015年07月09日 23:44
  • 1351

使用SAX方式解析XML

一、创建XML文件 目录结构: 二、新建一个带有main方法的类(SAXTest.java)public class SAXTest { public static void main(S...
  • L_in12
  • L_in12
  • 2016年07月13日 14:17
  • 5065

XML解析之SAX解析过程代码详解

上一篇谢了解析原理和过程,这里应用代码直观认识这个原理: 新建Demo1类: import java.io.File; import javax.xml.parsers.SAXParser; ...
  • qq_32059827
  • qq_32059827
  • 2016年05月31日 13:12
  • 1011

数据存储(二)--SAX引擎XML存储(附Demo)

Android SDK只支持采用SAX技术读取XML,SAX采用顺序读取的方式来处理XML文档。这就要求在每读取XML文档的某个节点时会触发相应的事件来处理这个节点。下面基于一个实例讲述SAX的使用:...
  • tangnengwu
  • tangnengwu
  • 2014年07月22日 15:59
  • 1058

Android 创建与解析XML(三)—— Sax方式

1. Sax概述SAX是一种占用内存少且解析速度快的解析器,它采用的是事件启动,不需要解析完整个文档,而是按照内容顺序看文档某个部分是否符合xml语法,如果符合就触发相应的事件,所谓的事件就是些回调方...
  • sunboy_2050
  • sunboy_2050
  • 2012年04月28日 23:12
  • 9121
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:浅析使用SAX解析XML
举报原因:
原因补充:

(最多只允许输入30个字)