Java解析XML(DOM解析和SAX解析)

MrYuShiwen

于 2021-12-15 10:49:02 发布

阅读量1.7k

点赞数 22

分类专栏： XML解析知其所以然文章标签： xml XML解析 DOM解析 SAX解析 JAXP

本文链接：https://blog.csdn.net/mryushiwen/article/details/121875200

版权

知其所以然同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

XML解析

2 篇文章 0 订阅

订阅专栏

前言：在程序中访问和操作XML文件一般有两种模型：DOM（文档对象模型）和流模型；在本篇文章中分别对应DOM解析和SAX解析。

1 .DOM解析与SAX解析的相关知识点

1.1 DOM

文档对象模型（Document Object Model，简称DOM），是W3C制定的标准接口规范，是一种处理HTML和XML文件的标准API。
将HTML或XML文档转化为DOM树的过程称为解析(parse)。HTML文档被解析后，转化为DOM树，因此对HTML文档的处理可以通过对DOM树的操作实现。DOM模型不仅描述了文档的结构，还定义了结点对象的行为，利用对象的方法和属性，可以方便地访问、修改、添加和删除DOM树的结点和内容。
DOM分为HTML DOM和XML DOM两种。它们分别定义了访问和操作HTML和XML文档的标准方法，并将对应的文档呈现为带有元素、属性和文本的树结构（节点树），如下图所示。
1. DOM树定义了HTML/XML文档的逻辑结构，给出了一种应用程序访问和处理XML文档的方法。
2. 在DOM树中，有一个根节点，所有其他的节点都是根节点的后代。
3. 在应用过程中，基于DOM的HTML/XML分析器将一个HTML/XML文档转换成一棵DOM树，应用程序通过对DOM树的操作，来实现对HTML/XML文档数据的操作。
  
  来自百度百科

1.2 DOM解析

DOM是基于属性结构的XML解析方式，会将整个XML文档读入内存并构建一个DOM树，基于这棵树型结构对各个节点进行操作。XML文档中每个成分都是一个节点，整个文档是一个文档节点，每个XML标签对应一个元素节点，包含在XML标签中的文本是文本节点，每一个XML属性是一个属性节点，注释属于注释节点。
DOM树所提供的随机访问方式很灵活方便，可以任意地控制整个XML文档中的内容，但是DOM分析器把整个XML文件转化为DOM树放到了内存中，即在处理过程中整个文档都表示在内存中。当文档比较大或者结构比较复杂时，对内存需求比较高。

1.3 SAX解析

JAVA 解析 XML 通常有两种方式:DOM 和SAX。DOM（文档对象模型）是W3C标准，提供了标准的解析方式，但其解析效率一直不尽如人意，这是因为DOM解析XML文档时，把所有内容一次性的装载入内存，并构建一个驻留在内存中的树状结构（节点树），图见章节1.1。如果需要解析的XML文档过大，或者我们只对该文档中的一部分感兴趣，这样就会引起性能问题。
SAX（simple API for XML）是一种XML解析的替代方法。相比于DOM，SAX是一种速度更快，更有效的方法。它逐行扫描文档，一边扫描一边解析。而且相比于DOM，SAX可以在解析文档的任意时刻停止解析，但任何事物都有其相反的一面，对于SAX来说就是操作复杂。

1.4 DOM解析与SAX解析对比

DOM	SAX
`基于树` ，在内存中是持久的，可以修改其内容	`基于事件`，类似于流媒体，分析能够立即开始，而不是等待所有的数据被处理
在内存中建立文件树,不适于处理大型的XML文件。	依序读入文件并产生相对应事件,可以处理任何大小的XML文件。
可以随意存取文件树的任何部分，没有次数限制	只能对文件按顺序剖析一遍，不支持对文件的随意存取
可以随意修改文件树，从而修改了XML文件	只能读取XML文件内容，而不能修改
易于理解，易于开发	开发上比较复杂，需要自己来制作事件处理器
已经在DOM基础之上建立了文件树	对工作人员更灵活，可以用SAX建立自己的XML对象模型

SAX 和 DOM 不是相互排斥的，我们可以使用 DOM 来创建 SAX 事件流，也可以使用 SAX 来创建 DOM 树。

1.5 XML与HTML的区别

XML	HTML
XML即ExtentsibleMarkup Language(可扩展标记语言)，是用来定义其它语言的一种元语言，其前身是SGML(标准通用标记语言)。	HTML(HyperTextMark-upLanguage)即超文本标记语言，是WWW的描述语言。
XML被设计用来描述数据，其焦点是数据的内容	HTML被设计用来显示数据，其焦点是数据的外观。
xml将数据和显示分开。	Html将数据和显示结合在一起，在页面中把这数据显示出来
xml是用来描述数据、存放数据的，所以可以作为持久化的介质	html是用来显示数据的
XML标签是免费的、自定义的、可扩展的	Html标签是预定义的
在xml中严格区分大小写	在html中不区分大小写
在XML中，是严格的树状结构，绝对不能省略掉结束标记。	在HTML中，有时不严格，如果上下文清楚地显示出段落或者列表键在何处结尾，那么你可以省略`</p>`或者`</li>`之类的结束标记。
在XML中，属性值必须分装在引号中	在HTML中，引号是可用可不用的。
在XML中，所有的属性都必须带有相应的值。	在HTML中，可以拥有不带值的属性名。
在XML文档中，空白部分不会被解析器自动删除。	html是可以过滤掉空格的。
xml没有固有的标记	html使用固有的标记，如`</p>`或者`</li>`等

2.Java中关于DOM解析实战(Dom4j解析)

本人之前写过关于Dom4j解析的博客，具体请参见本人另外一篇博客https://blog.csdn.net/MrYushiwen/article/details/113182481

ps:导包注意不要导错了，是org.dom4j下的包。
在这里插入图片描述
另外在 mybatis 中，解析XML文件采用的是DOM + XPath 方式进行对配置文件的加载和解析
XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。是一种为查询 XML 文档而设计的语言，因为 DOM 解析 XML 的方式会将整个 XML 内容加载到内存并形成树形结构，所以 XPath 可以配合 DOM 进行对 XML 的解析。
在这里插入图片描述
上述图片来自百度百科，对于XPath感兴趣的同学可以参考百度百科，上面描述得很清楚，链接：https://baike.baidu.com/item/XPath/5574064

3.DOM方式解析XML的时候encoding属性的作用

规定：

W3C定义了三条XML解析器如何正确读取XML文件的编码的规则：

如果文本文件头部有BOM（Byte Order Mark），即字节顺序标记（它是在Unicode编码标准中用于标识文件是采用哪种格式的编码），就按照BOM来。
如果没有BOM，就查看XML声明的编码属性。
如果上述两个都没有，就假定XML文档采用UTF-8编码。

也就是说XML解析器首先根据文件的BOM来解析文件；如果没找到BOM，由用XML里的encoding属性指定的编码；如果xml里encoding没指定的话，就默认用utf-8来解析文档。然后又可以推出，BOM和ENCODING都有的话，则以BOM指定的为准。

具体内容见本人另一篇博文：https://blog.csdn.net/MrYushiwen/article/details/121925364

3.SAX解析

注意导包不要导错了

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.IOException;

public class SAXParseDemo {
    public static void main(String[] args) {
        //1.创建解析工厂
        SAXParserFactory saxParserFactory = SAXParserFactory.newInstance();
        //2.创建解析器
        try {
            SAXParser saxParser = saxParserFactory.newSAXParser();
            //3.通过解析器的parse方法
            saxParser.parse("C:\\Users\\yclw060\\Desktop\\11.xml",new MyDefaultHandler());
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }

    }
}

class MyDefaultHandler extends DefaultHandler{
    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        //找到开始标签，输出标签名
        System.out.println(qName);
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
        //标签内的文体生成String，然后输出
        System.out.println(new String(ch,start,length));
    }

    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        //输出结束标签名
        System.out.println(qName);
    }
}

4.JAXP简介

JAXP（Java API for XMLProcessing，意为XML处理的Java API）是Java XML程序设计的应用程序接口之一，它提供解析和验证XML文档的能力。
JAXP解析XML的三种基本接口为：

文档对象模型解析接口或DOM接口
XML简单API解析接口或SAX接口
XML流API或StAX接口（是JDK 6的一部分，为JDK 5提供单独的包）
除了解析接口，JAXP还提供了XSLT接口用来对XML文档进行数据和结构的转换。

上面3个章节中已对前两种解析方式做了具体分析，下面对剩下的两种方式做简要说明：

4.1 StAX接口

全称 Streaming API for XML，一种全新的，基于流的JAVA XML解析标准类库。
StAX 解析方式和 SAX 解析方式相似，它也是把 XML 文档作为一个事件流进行处理，但不同之外在于 StAX 采用的是拉模式，而SAX采用的是推方式。
- 推模型：就是我们常说的SAX，它是一种靠事件驱动的模型。当它每发现一个节点就引发一个事件，而我们需要编写这些事件的处理程序。这样的做法很麻烦，且不灵活。
- 拉模型：在遍历文档时，会把感兴趣的部分从读取器中拉出，不需要引发事件，允许我们选择性地处理节点。这大大提高了灵活性，以及整体效率
StAX的设计介于DOM和SAX接口之间，在它的隐喻中，程序的入口点是一个代表文档中一个位置的光标。应用程序可以按需向前移动光标 – 从解析器中“拉”出信息。这与基于事件的API（如SAX）不同，SAX将数据“推”给应用程序，要求应用程序维护事件间的状态，如果应用需要知道在文档中的位置信息。

4.2 XSLT接口

简介：

XSLT（可扩展样式表转换语言）允许将XML文档转换为数据其他形式。应用程序使用javax.xml.transform包中的接口可以进行XSLT转换。
接口最初被称为TrAX （Transformation API for XML），是由许多Java XSLT处理器的开发人员通过非正式协作开发的。

接口的主要特性包括：

工厂类javax.xml.transform.TransformerFactory可以使应用动态地选择使用哪一个XSLT处理器。
TransformerFactory上的方法用来创建javax.xml.transform.Templates对象, 表示样式表的编译后的形式。这是一个线程安全的对象，可以重复使用，顺序或并发，在多个源文档上应用同一个样式表（或用用一个源文档，不同的参数）
Templates上的方法可以创建javax.xml.transform.Transformer，表示样式表的可执行形式。Transformer不可以在线程间共享，虽然也是可重用的。Transformer提供方法设置样式表参数和序列化选项（例如，输出是否缩进），以及一个实际运行转换的方法。
JAXP定义了javax.xml.transform.Source和javax.xml.transform.Result两个抽象接口来表示转换的输入和输出。某种程度上，这是非常规使用Java接口，这是因为并不期待一个处理器会接受任何实现该接口的类，每一个处理器可以选择支持那些Source和Result的处理。实际上所有JAXP处理器支持三种标准类型的Source （DOMSource，SAXSource，StreamSource）以及三种标准类型的Result （DOMResult，SAXResult，StreamResult）以及处理器自己的实现。
来自百度百科