XML文件解析技术总结（二）

最新推荐文章于 2024-06-29 12:06:41 发布

jackkp_Catus

最新推荐文章于 2024-06-29 12:06:41 发布

阅读量8.8k

点赞数

分类专栏： Java技术文章标签： xml 文档 string import attributes file

本文链接：https://blog.csdn.net/jackkp_catus/article/details/1780037

版权

本文深入探讨了XML解析的两种主要技术：DOM和SAX。DOM解析构建整个XML文档的节点树，适合小规模文档，而SAX基于事件驱动，适用于大规模文档，减少了内存消耗。文章通过代码示例展示了DOM解析器工厂、DOM树节点类型及SAX处理机制的工作原理。

摘要由CSDN通过智能技术生成

XML文件解析技术总结（二）

在上一篇文章中我们主要是简单的介绍了一下XML和相关的解析技术，接下来我们就来相对具体地介绍一下解析器模型。

DOM

DOM是W 3C 组织以IDL（Interface Definition Language, 接口定义语言）的形式定义了DOM中的接口。某种语言要实现DOM，需要将DOM接口转换为本语言中的适当结构。

DOM中的核心概念是节点，它把XML文档的各个部分（元素、属性、文本、注释和处理指令等）都抽象为节点。在内存中整个文档是一个树的结构存储的，整棵树是个节点，树中的每一个节点也是一个树。我们通过访问树中的节点来存取XML文档的内容。

DOM定义了一个Node接口，用于表示文档树中一个节点。从Node接口派生出了更多的具体接口，例如Document接口、Element接口、Attr接口。

上图表示DOM中表示XML文档中各组成部分的接口继承关系

在实际使用中，很少使用Node对象，而是Document、Text、Element和Attr等Node对象的子对象来操作文档。当然在顶层的Node接口声明了对节点进行操作的方法。下面就列出了Node接口的主要方法：

public String getNodeName();

返回该节点的名字

public short getNodeType();

返回表示该节点类型的代码

public String getNodeValue() throws DOMException;

返回该节点的值

public void setNodeValue(String nodeValue) throws DOMException;

设置该节点的值

public boolean hasChildNodes();

判断该节点是否还有子节点

public NodeList getChildNodes();

以列表的形式返回该节点的所有子节点

………等等

在javax.xml.parsers包中定义了DOM解析器工厂类DocumentBuildFactory，用于产生DOM解析器。DocumentBuildFactory是一个抽象类，在这个类中提供了一个静态的方法newInstance( )，用于创建工厂类的一个实例。

DocumentBuildFactory factory = DocumentBuildFactory.newInstance();

DoucmentBuild build = factory.newDocumentBuilder();

DocumentBuild类也是一个抽象类，调用DocumentBuildFactory的newInstance( )方法得到具体厂商的工厂类的实例后，再利用其newDocumentBuilder( )方法，得到具体厂商的DOM解析器对象。

DocumentBuilder类提供了parse()方法，用于解析XML文档的内容，返回一个表示整个文档的Document对象。Parse()方法的参数可以是File类、InputSource类、InputStream类或表示XML文件的URI。

DOM本质上是节点的集合。由于一个文档中可能包含不同类型的信息。

节点类型	DOM中的接口	说明
注释	Comment	Comment接口继承自CharacterData接口，表示注释的内容
处理指令	ProcessingInstruction	ProcessingInstruction接口表示XML文档中的处理指令部分
文档类型

关注

专栏目录