Java解析xml的主要解析器: SAX和DOM的选择(附上新方法--Pull解析)

最新推荐文章于 2018-03-16 14:14:00 发布

sdx1237

最新推荐文章于 2018-03-16 14:14:00 发布

阅读量564

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/sdx1237/article/details/60131827

版权

java 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Java的xml解析器库有很多，总的来说，万变不离其宗的就是SAX和DOM解析器。

SAX的包是org.xml.sax

DOM的包是org.w3c.dom

1) DOM

DOM 是用与平台和语言无关的方式表示 XML 文档的官方 W3C 标准。DOM 是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构，然后才能做任何工作。由于它是基于信息层次的，因而 DOM 被认为是基于树或基于对象的。DOM 以及广义的基于树的处理具有几个优点。首先，由于树在内存中是持久的，因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下导航，而不是像 SAX 那样是一次性的处理。DOM 使用起来也要简单得多。

另一方面，对于特别大的文档，解析和加载整个文档可能很慢且很耗资源，因此使用其他手段来处理这样的数据会更好。这些基于事件的模型，比如 SAX。

2) SAX

这种处理的优点非常类似于流媒体的优点。分析能够立即开始，而不是等待所有的数据被处理。而且，由于应用程序只是在读取数据时检查数据，因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上，应用程序甚至不必解析整个文档；它可以在某个条件得到满足时停止解析。一般来说，SAX 还比它的替代者 DOM 快许多。

3) 选择 DOM 还是选择 SAX ？

对于需要自己编写代码来处理 XML 文档的开发人员来说，选择 DOM 还是 SAX 解析模型是一个非常重要的设计决策。

DOM 采用建立树形结构的方式访问 XML 文档，而 SAX 采用的事件模型。

DOM 解析器把 XML 文档转化为一个包含其内容的树，并可以对树进行遍历。用 DOM 解析模型的优点是编程容易，开发人员只需要调用建树的指令，然后利用navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用 DOM 解析器的时候需要处理整个 XML 文档，所以对性能和内存的要求比较高，尤其是遇到很大的 XML 文件的时候。由于它的遍历能力，DOM 解析器常用于 XML 文档需要频繁的改变的服务中。

　　SAX 解析器采用了基于事件的模型，它在解析 XML 文档的时候可以触发一系列的事件，当发现给定的tag的时候，它可以激活一个回调方法，告诉该方法制定的标签已经找到。SAX 对内存的要求通常会比较低，因为它让开发人员自己来决定所要处理的tag。特别是当开发人员只需要处理文档中所包含的部分数据时，SAX 这种扩展能力得到了更好的体现。但用 SAX 解析器的时候编码工作会比较困难，而且很难同时访问同一个文档中的多处不同数据。

个人总结

*******************

DOM：

解析器读入整个文档，然后构建一个驻留内存的树结构，然后代码就可以使用 DOM 接口来操作这个树结构。

优点：整个文档树在内存中，便于操作；支持删除、修改、重新排列等多种功能；

缺点：将整个文档调入内存（包括无用的节点），浪费时间和空间；

使用场合：一旦解析了文档还需多次访问这些数据；硬件资源充足（内存、CPU）

SAX：

事件驱动。当解析器发现元素开始、元素结束、文本、文档的开始或结束等时，发送事件，程序员编写响应这些事件的代码，保存数据。

优点：不用事先调入整个文档，占用资源少

缺点：不是持久的；事件过后，若没保存数据，那么数据就丢了；无状态性；从事件中只能得到文本，但不知该文本属于哪个元素；

使用场合：只需XML文档的少量内容，很少回头访问；一次性读取；机器内存少；

注意:SAX 解析器不创建任何对象。

***********************

SAX：只能读，不能修改，只能顺序访问，适合对大型的XML的解析，解析速度快！
DOM：不仅能读，还能修改，而且能够实现随机访问，缺点是解析速度慢，只适合解析小型文档
解析速度慢（要在内存中生成节点树，而生成树是比较费时的）
SAX：应用于保存大量数据的XML（为什么要用XML保存大量的数据类容？答：可以实现异构系统
的数据访问，实现跨平台！）

DOM：一般应用与小型的配置XML，方便我们操作！

SAX是Simple API for XML的缩写，它并不是由W3C官方所提出的标准，可以说是“民间”的事实标准。实际上，它是一种社区性质的讨论产物。虽然如此，在XML中对SAX的应用丝毫不比DOM少，几乎所有的XML解析器都会支持它。

与DOM 比较而言，SAX是一种轻量型的方法。我们知道，在处理DOM的时候，我们需要读入整个的XML文档，然后在内存中创建DOM树，生成DOM树上的每个 Node对象。当文档比较小的时候，这不会造成什么问题，但是一旦文档大起来，处理DOM就会变得相当费时费力。特别是其对于内存的需求，也将是成倍的增长，以至于在某些应用中使用DOM是一件很不划算的事（比如在applet中）。这时候，一个较好的替代解决方法就是SAX。

SAX 在概念上与DOM完全不同。首先，不同于DOM的文档驱动，它是事件驱动的，也就是说，它并不需要读入整个文档，而文档的读入过程也就是SAX的解析过程。所谓事件驱动，是指一种基于回调（callback）机制的程序运行方法。（如果你对Java新的代理事件模型比较清楚的话，就会很容易理解这种机制了）

在XMLReader接受XML文档，在读入XML文档的过程中就进行解析，也就是说读入文档的过程和解析的过程是同时进行的，这和DOM区别很大。解析开始之前，需要向XMLReader注册一个ContentHandler，也就是相当于一个事件监听器，在 ContentHandler中定义了很多方法，比如startDocument()，它定制了当在解析过程中，遇到文档开始时应该处理的事情。当 XMLReader读到合适的内容，就会抛出相应的事件，并把这个事件的处理权代理给ContentHandler，调用其相应的方法进行响应。

DOM和SAX的使用例子 ( http://sinye.javaeye.com/blog/763926 / http://www.javaeye.com/topic/763895)

Xml文件内容

    <?xml version="1.0" encoding="UTF-8"?> 
    <books> 
        <book id="12"> 
            <name>thinking in java</name> 
            <price>85.5</price> 
        </book> 
        <book id="15"> 
            <name>Spring in Action</name> 
            <price>39.0</price> 
        </book> 
    </books>

Book.java如下：主要是用来组装数据

    public class Book { 
        private int id; 
        private String name; 
        private float price; 
     
        public int getId() { 
            return id; 
        } 
     
        public void setId(int id) { 
            this.id = id; 
        } 
     
        public String getName() { 
            return name; 
        } 
     
        public void setName(String name) { 
            this.name = name; 
        } 
     
        public float getPrice() { 
            return price; 
        } 
     
        public void setPrice(float price) { 
            this.price = price; 
        } 
         
        @Override 
        public String toString(){ 
            return this.id+":"+this.name+":"+this.price; 
        } 
    }

1. Dom解析是将xml文件全部载入，组装成一颗dom树，然后通过节点以及节点之间的关系来解析xml文件，结合一张图来发现dom解析时需要注意的地方

在这里当我们得到节点book时，也就是图中1所画的地方，如果我们调用它的getChildNodes()方法，大家猜猜它的子节点有几个？不包括它的孙子节点，thinking in java这种的除外，因为它是孙子节点。它总共有5个子节点，分别是图中2、3、4、5、6所示的那样。所以在解析时，一定要小心，不要忽略空白的地方。

然后看代码来解析book.xml文件 DomParseService.java

    import java.io.InputStream; 
    import java.util.ArrayList; 
    import java.util.List; 
     
    import javax.xml.parsers.DocumentBuilder; 
    import javax.xml.parsers.DocumentBuilderFactory; 
     
    import org.w3c.dom.Document; 
    import org.w3c.dom.Element; 
    import org.w3c.dom.NodeList; 
    import org.w3c.dom.Node; 
     
    import com.xtlh.cn.entity.Book; 
     
    public class DomParseService { 
        public List<Book> getBooks(InputStream inputStream) throws Exception{ 
            List<Book> list = new ArrayList<Book>(); 
            DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); 
            DocumentBuilder builder = factory.newDocumentBuilder(); 
            Document document = builder.parse(inputStream); 
            Element element = document.getDocumentElement(); 
     
            NodeList bookNodes = element.getElementsByTagName("book"); 
            for(int i=0;i<bookNodes.getLength();i++){ 
                Element bookElement = (Element) bookNodes.item(i); 
                Book book = new Book(); 
                book.setId(Integer.parseInt(bookElement.getAttribute("id"))); 
                NodeList childNodes = bookElement.getChildNodes(); 
    //          System.out.println("*****"+childNodes.getLength()); 
                for(int j=0;j<childNodes.getLength();j++){ 
                    if(childNodes.item(j).getNodeType()==Node.ELEMENT_NODE){ 
                        if("name".equals(childNodes.item(j).getNodeName())){ 
                            book.setName(childNodes.item(j).getFirstChild().getNodeValue()); 
                        }else if("price".equals(childNodes.item(j).getNodeName())){ 
                            book.setPrice(Float.parseFloat(childNodes.item(j).getFirstChild().getNodeValue())); 
                        } 
                    } 
                }//end for j 
                list.add(book); 
            }//end for i 
            return list; 
        } 
    }

测试使用单元测试如下ParseTest.java

public class ParseTest extends TestCase{ 
 
    public void testDom() throws Exception{ 
        InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml"); 
        DomParseService dom = new DomParseService(); 
        List<Book> books = dom.getBooks(input); 
        for(Book book : books){ 
            System.out.println(book.toString()); 
        } 
    } 
}

2. Sax解析是按照xml文件的顺序一步一步的来解析，在解析xml文件之前，我们要先了解xml文件的节点的种类，一种是ElementNode，一种是TextNode。

其中，像<books>、<book>这种节点就属于ElementNode,而thinking in java、85.5这种就属于TextNode。

下面结合一张图来详细讲解Sax解析。

xml文件被Sax解析器载入，由于Sax解析是按照xml文件的顺序来解析，当读入<?xml.....>时，会调用startDocument()方法，当读入<books>的时候，由于它是个ElementNode，所以会调用startElement(String uri, String localName, String qName, Attributes attributes) 方法，其中第二个参数就是节点的名称，注意：由于有些环境不一样，有时候第二个参数有可能为空，所以可以使用第三个参数，因此在解析前，先调用一下看哪个参数能用，第4个参数是这个节点的属性。这里我们不需要这个节点，所以从<book>这个节点开始，也就是图中1的位置，当读入时，调用startElement(....)方法，由于只有一个属性id，可以通过attributes.getValue(0)来得到，然后在图中标明2的地方会调用characters(char[] ch, int start, int length)方法，不要以为那里是空白，Sax解析器可不那么认为，Sax解析器会把它认为是一个TextNode。但是这个空白不是我们想要的数据，我们是想要<name>节点下的文本信息。这就要定义一个记录当上一节点的名称的TAG，在characters(.....)方法中，判断当前节点是不是name，是再取值，才能取到thinking in java。具体见代码：SaxParseService.java

    import java.io.InputStream; 
    import java.util.ArrayList; 
    import java.util.List; 
     
    import javax.xml.parsers.SAXParser; 
    import javax.xml.parsers.SAXParserFactory; 
     
    import org.xml.sax.Attributes; 
    import org.xml.sax.SAXException; 
    import org.xml.sax.helpers.DefaultHandler; 
     
    import com.xtlh.cn.entity.Book; 
     
    public class SaxParseService extends DefaultHandler{ 
        private List<Book> books = null; 
        private Book book = null; 
        private String preTag = null;//作用是记录解析时的上一个节点名称 
     
        public List<Book> getBooks(InputStream xmlStream) throws Exception{ 
            SAXParserFactory factory = SAXParserFactory.newInstance(); 
            SAXParser parser = factory.newSAXParser(); 
            SaxParseService handler = new SaxParseService(); 
            parser.parse(xmlStream, handler); 
            return handler.getBooks(); 
        } 
     
        public List<Book> getBooks(){ 
            return books; 
        } 
     
        @Override 
        public void startDocument() throws SAXException { 
            books = new ArrayList<Book>(); 
        } 
     
        @Override 
        public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException { 
            if("book".equals(qName)){ 
                book = new Book(); 
                book.setId(Integer.parseInt(attributes.getValue(0))); 
            } 
            preTag = qName;//将正在解析的节点名称赋给preTag 
        } 
     
        @Override 
        public void endElement(String uri, String localName, String qName) 
                throws SAXException { 
            if("book".equals(qName)){ 
                books.add(book); 
                book = null; 
            } 
            preTag = null;/**当解析结束时置为空。这里很重要，例如，当图中画3的位置结束后，会调用这个方法 
            ，如果这里不把preTag置为null，根据startElement(....)方法，preTag的值还是book，当文档顺序读到图 
            中标记4的位置时，会执行characters(char[] ch, int start, int length)这个方法，而characters(....)方 
            法判断preTag!=null，会执行if判断的代码，这样就会把空值赋值给book，这不是我们想要的。*/ 
        } 
     
        @Override 
        public void characters(char[] ch, int start, int length) throws SAXException { 
            if(preTag!=null){ 
                String content = new String(ch,start,length); 
                if("name".equals(preTag)){ 
                    book.setName(content); 
                }else if("price".equals(preTag)){ 
                    book.setPrice(Float.parseFloat(content)); 
                } 
            } 
        } 
     
    }

测试是用的单元测试，测试代码如下：ParseTest

    import java.io.InputStream; 
    import java.util.List; 
     
    import junit.framework.TestCase; 
     
    import com.xtlh.cn.demo.DomParseService; 
    import com.xtlh.cn.demo.SaxParseService; 
    import com.xtlh.cn.entity.Book; 
     
    public class ParseTest extends TestCase{ 
     
        public void testSAX() throws Throwable{ 
            SaxParseService sax = new SaxParseService(); 
            InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml"); 
            List<Book> books = sax.getBooks(input); 
            for(Book book : books){ 
                System.out.println(book.toString()); 
            } 
        } 
    }

在用Sax解析的时候最需要重视的一点就是不要把那些<节点>之间的空白忽略就好！

最近了解到JDK6 添加一个名为StAX的新解析方法，具体可以参考在JDK 6.0中基于StAX分析XML数据。在J2ME下可以使用XmlPullParser，参考 http://www.javaeye.com/topic/41564。这些解析方法都是pull parser。按照帖子里的网友说法，“pull parser为什么快？sax parser为什么慢？我觉得这是关键。我曾经在delphi上把一个sax parser改装成pull parser。其实很简单，只要把回调的API改成基于循环的主动查询。做的是减法”！！看完了下面的例子 http://www.javaeye.com/topic/763949，似乎明白了一点。这个例子所使用的xml文件和Java实体类和上面两个例子一样的。

Pull解析和Sax解析很相似，都是轻量级的解析，在Android的内核中已经嵌入了Pull，所以我们不需要再添加第三方jar包来支持Pull。Pull解析和Sax解析不一样的地方有(1)pull读取xml文件后触发相应的事件调用方法返回的是数字(2)pull可以在程序中控制想解析到哪里就可以停止解析。

Pull解析的代码如下PullParseService.java

    import java.io.InputStream; 
    import java.util.ArrayList; 
    import java.util.List; 
     
    import org.xmlpull.v1.XmlPullParser; 
     
    import android.util.Xml; 
     
    import com.xtlh.cn.entity.Book; 
     
    public class PullParseService { 
        public static List<Book> getBooks(InputStream inputStream) throws Exception{ 
            List<Book> books = null; 
            Book book = null; 
            XmlPullParser parser = Xml.newPullParser(); 
            parser.setInput(inputStream, "UTF-8"); 
     
            int event = parser.getEventType();//产生第一个事件 
            while(event!=XmlPullParser.END_DOCUMENT){ 
                switch(event){ 
                case XmlPullParser.START_DOCUMENT://判断当前事件是否是文档开始事件 
                    books = new ArrayList<Book>();//初始化books集合 
                    break; 
                case XmlPullParser.START_TAG://判断当前事件是否是标签元素开始事件 
                    if("book".equals(parser.getName())){//判断开始标签元素是否是book 
                        book = new Book(); 
                        book.setId(Integer.parseInt(parser.getAttributeValue(0)));//得到book标签的属性值，并设置book的id 
                    } 
                    if(book!=null){ 
                        if("name".equals(parser.getName())){//判断开始标签元素是否是name 
                            book.setName(parser.nextText()); 
                        }else if("price".equals(parser.getName())){//判断开始标签元素是否是price 
                            book.setPrice(Float.parseFloat(parser.nextText())); 
                        } 
                    } 
                    break; 
                case XmlPullParser.END_TAG://判断当前事件是否是标签元素结束事件 
                    if("book".equals(parser.getName())){//判断结束标签元素是否是book 
                        books.add(book);//将book添加到books集合 
                        book = null; 
                    } 
                    break; 
                } 
                event = parser.next();//进入下一个元素并触发相应事件 
            }//end while 
            return books; 
        } 
    }

测试使用的是android的单元测试，代码如下：

    import java.io.InputStream; 
    import java.util.List; 
     
    import android.test.AndroidTestCase; 
    import android.util.Log; 
     
    import com.xtlh.cn.entity.Book; 
    import com.xtlh.cn.service.PullParseService; 
     
    public class testPullParseService extends AndroidTestCase{ 
        private static final String TAG = "testPullParseService"; 
        public void testPull() throws Exception{ 
            InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml"); 
            PullParseService pull = new PullParseService(); 
            List<Book> books = pull.getBooks(input); 
            for(Book book : books){ 
                Log.i(TAG,book.toString()); 
            } 
        } 
    }