XML编程案例与技巧（第二版）：实践教程

昊叔Crescdim

于 2024-09-06 13:15:16 发布

阅读量1.2k

点赞数 19

本文链接：https://blog.csdn.net/weixin_33375360/article/details/141997388

版权

本文还有配套的精品资源，点击获取

简介：本书通过丰富的实例深入讲解XML技术，包括XML的基础知识、文档结构和最新标准。同时，介绍了XML解析技术，如DOM和SAX，以及如何使用XPath进行数据检索和操作。此外，书中还涵盖了XSLT技术，用于XML数据的转换，以及XML在Web服务中的应用，如SOAP和RESTful服务。通过分析实际XML文档实例，读者能够将所学知识应用于实际场景中。

1. XML基础知识与规范

XML（可扩展标记语言）是一种用于描述结构化数据的标记语言。在这一章节中，我们将介绍XML的起源、核心特点，以及它的应用和重要性。本章内容对初学者和有经验的IT从业者都将提供价值，因为它奠定了理解和应用XML的基础。

1.1 XML的定义与特性

XML是一种用于定义数据元素的语言，它允许开发者自定义标签和属性，以适应不同的数据交换需求。XML的关键特性包括：

可扩展性 ：可以创建无限的标记来描述数据。
平台无关性 ：作为纯文本格式，XML可在不同的平台和设备上使用。
文本格式 ：便于阅读和编辑，有助于数据的维护和交换。

1.2 XML的语法规则

XML文档遵循严格的语法规则，包括：

根元素 ：所有XML文档必须有一个唯一的根元素，它包含所有其他元素。
元素的层次性 ：元素必须正确嵌套，即结束标签与开始标签匹配。
属性的规范 ：属性必须有值，并且值需要用引号包围。

理解这些基础概念是学习XML规范和后续深入章节的起点。在下一章中，我们将探讨如何构建XML文档及其结构细节。

2. XML文档结构及其构建

2.1 XML文档的基础结构

2.1.1 标记和元素的定义

在XML（Extensible Markup Language，可扩展标记语言）中，标记（Tag）是构成XML文档的基本单位。每一个标记都用来指示信息的开始和结束，用于区分文档内容中的数据与非数据部分。标记可以是简单的开始标记和结束标记，例如 <name> 和 </name> ，也可以是自闭合的标记，如 <line-break/> 。

元素（Element）是包含在开始和结束标记中的内容，或者是一个自闭合的标记。在XML文档中，一个元素必须正确地开始并结束。例如，在上述的 <name> 和 </name> 标记之间，可以包含文本信息，这个文本信息就构成了一个名为"name"的元素。

标记和元素的定义对XML文档的结构和内容表达至关重要。它们不仅提供了文档的骨架，还定义了数据的含义，从而使文档具有自描述的特性。XML的这一特性让它成为数据交换的通用语言。

2.1.2 属性的使用与注意事项

在XML中，属性提供了元素的附加信息。每个属性都位于元素的开始标记内，并且拥有唯一的名称。属性的定义格式为 name="value" ，其中 name 是属性的名称，而 value 是属性的值。例如，在 <person gender="male">John Doe</person> 中， gender 是一个属性，它的值为 male 。

在使用属性时，需要注意以下几点：

属性值必须被引号包围。
属性不应包含多值，若需要表示多值信息，应考虑将数据作为子元素。
属性应避免携带大量的数据，因为它们不是XML文档查询和处理的重点。
使用属性时应保持一致性，属性名称和值的大小写敏感性应与文档的定义保持一致。

属性虽然方便在元素中携带额外信息，但它们不支持递归结构，并且在XSLT等一些处理XML的技术中，处理属性比处理元素更为复杂。因此，在设计XML文档结构时，合理利用元素和属性是非常重要的。

2.2 XML文档的高级结构

2.2.1 命名空间的引入与应用

命名空间是XML中用于解决元素和属性名冲突的一种机制。它允许你为你的文档中的元素和属性定义一个唯一的标识符。命名空间通过一个统一资源标识符（URI）来指定，并且通常与一个前缀一起使用，来限定元素和属性的范围。

命名空间的声明使用 xmlns 属性，并以如下格式给出：

<root xmlns:ns="***">
    <ns:element>Some content</ns:element>
</root>

在这个例子中，我们为根元素内的所有内容声明了一个以 ns 为前缀的命名空间，其URI为 *** 。这样，使用 ns: 前缀的任何元素或属性都将属于这个命名空间，从而避免与其他未命名空间的同名元素和属性发生冲突。

命名空间的应用不仅可以确保XML文档的互操作性，还可以让XML文档保持良好的模块化。在使用大型XML文档或者在多个数据源间交换数据时，合理使用命名空间是保持文档清晰和有序的关键。

2.2.2 CDATA区块的作用与编写

CDATA区块是XML文档中用于转义文本的一种结构，它告诉XML解析器忽略区块中的所有标记字符（除了 ]]> ），并且将区块内的内容视为纯文本。CDATA区块的格式以 <![CDATA[ 开始，并以 ]]> 结束。CDATA区块在包含XML标记或者需要转义的特殊字符时非常有用。

例如，若XML文档中需要包含大量的HTML代码，可以这样使用CDATA区块：

<page>
    <![CDATA[
        <h1>XML</h1>
        <p>这是一段<em>粗体</em>文本。</p>
    ]]>
</page>

在这个例子中，所有的HTML标签和 <em> 标签内的文本将不会被XML解析器作为标记处理，而是作为普通的字符串输出。这对于保持数据的原始性和完整性非常关键。

2.2.3 实体和引用的处理技巧

实体（Entity）在XML中用于表示特殊字符、字符序列或者外部资源。XML预定义了一些实体，比如 & 代表 & ， < 代表 < ， > 代表 > 等。除此之外，XML允许用户定义自己的实体，这些自定义实体称为一般实体。

定义一般实体时，可以在文档类型定义（DTD）中声明实体，使用 <!ENTITY name "value"> 语法。例如：

<!DOCTYPE html [
    <!ENTITY copyright "版权所有 ©">
    <!ENTITY newline "
">
]>
<html>
    <head><title>示例页面</title></head>
    <body>&copyright;2023</body>
</html>

一般实体非常适合用来简化重复内容的表示，它们也支持字符替换和资源引用，比如将长段重复的文本替换为一个简短的实体引用。这不仅减少了文档的大小，也提高了可维护性。

处理XML时，正确使用实体和引用可以使文档结构更清晰、内容更丰富、表达更准确。实体和引用是XML处理高级技巧的重要组成部分，对于编写可维护性强、结构清晰的XML文档至关重要。

3. XML解析技术与方法

3.1 DOM解析技术

3.1.1 DOM树结构的理解

在讨论XML解析技术时，文档对象模型（DOM）解析技术是一个重要的议题。DOM是一种以树形结构方式表示XML文档的编程接口，它允许程序和脚本动态地访问和更新文档的内容、结构和样式。

当一个XML文档被DOM解析器加载时，它会被解析成一个树状的节点结构。每个节点代表XML文档中的一个部分，如元素、属性、注释、文本等。在DOM树中，根节点代表整个文档，而其子节点代表文档的根元素，以此类推，形成了层次分明的结构。

这种树形结构提供了一个直观的方式来遍历、搜索和修改XML文档。例如，可以很容易地通过遍历DOM树来访问特定的元素或属性，或者对它们进行修改。

理解DOM树的结构对于有效地使用DOM API至关重要。开发者可以通过节点类型来识别节点，并根据需求执行不同的操作。节点类型包括元素节点（ ELEMENT_NODE ）、文本节点（ TEXT_NODE ）、属性节点（ ATTRIBUTE_NODE ）等。

3.1.2 DOM编程接口的应用

DOM编程接口为操作DOM树提供了丰富的API。基本的DOM操作包括节点的创建、删除、修改以及查找子节点和父节点等。

例如，要创建一个新的元素节点并添加到DOM树中，可以使用如下的JavaScript代码：

// 创建一个新元素
var newElement = document.createElement("newElement");

// 设置元素的文本内容
newElement.textContent = "这是一段新文本";

// 获取DOM树中的根节点，并将新元素添加为子节点
document.documentElement.appendChild(newElement);

在上面的代码中， document.createElement() 用于创建一个新元素， textContent 属性用于设置元素的文本内容， document.documentElement.appendChild() 方法则将新创建的元素添加到文档的根元素下作为子节点。

查找节点可以使用 getElementsByTagName() , getElementById() , 或者 querySelector() 等方法。这些方法返回的是节点列表或者特定的节点，从而方便进行进一步的操作。

修改DOM结构时，可以使用 replaceChild() , removeChild() , 或者 insertBefore() 等方法来修改节点之间的关系。

理解并熟练使用DOM API能显著提高处理XML文档的效率和灵活性。开发者应该根据自己的需求选择合适的方法来操作DOM树。

3.2 SAX解析技术

3.2.1 SAX的事件驱动模型

SAX（Simple API for XML）解析技术采用了事件驱动模型，这意味着解析XML文档时，解析器会从头到尾读取XML文档，同时触发一系列事件（如开始标签、结束标签、字符数据等），应用程序可以注册事件处理器来响应这些事件。

这种模型的一个优点是内存效率高，因为它不需要在内存中创建整个文档的树形表示。它适用于处理大型文件，因为它不需要一次性将整个文档加载到内存中。

下面是一个简单的SAX解析器使用示例：

import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.*;

public class SaxParserExample extends DefaultHandler {
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        System.out.println("Start Element :" + qName);
    }
    public void endElement(String uri, String localName, String qName) throws SAXException {
        System.out.println("End Element :" + qName);
    }

    public void characters(char ch[], int start, int length) throws SAXException {
        System.out.println("Characters: " + new String(ch, start, length));
    }

    public static void main(String[] args) throws Exception {
        SAXParserFactory spf = SAXParserFactory.newInstance();
        SAXParser sp = spf.newSAXParser();
        sp.parse("example.xml", new SaxParserExample());
    }
}

在这个Java示例中， SaxParserExample 类扩展了 DefaultHandler 类，并重写了 startElement , endElement 和 characters 方法。这些方法会在相应的事件发生时被调用。 main 方法中创建了一个 SAXParser 实例，并用它解析了一个名为 example.xml 的文件。

3.2.2 SAX与DOM性能对比及适用场景

SAX和DOM是XML解析的两种主要技术，它们在性能和适用场景方面有着显著的不同。

SAX解析器是基于流的，解析过程中，一旦遇到一个元素，就会立即触发事件处理器，处理完毕后，SAX解析器继续解析文档的下一个部分。因此，对于大型XML文档的解析，SAX更具有优势，因为它不需要将整个文档加载到内存中，只占用很少的内存资源。

相比之下，DOM解析器需要读取整个XML文档，构建出整个文档的DOM树结构，之后才能进行操作。因此，对于小型到中等大小的XML文件，DOM解析器更为方便快捷。然而，当处理大型文件时，DOM可能会因内存不足而变得不可行。

在适用场景上，SAX更适合于需要从XML文件中读取特定数据的场合，比如读取配置文件、日志文件等，因为它可以边读边处理，实时输出所需信息，无需等待整个文件解析完成。

DOM解析技术则适合于需要对XML文档结构进行复杂处理和操作的场合，如创建、修改和导航文档结构等。DOM提供了一个方便的方式来遍历和修改整个文档结构，因此，在需要对XML文档进行复杂操作的应用场景下，DOM通常是更好的选择。

在选择SAX还是DOM时，开发者需要考虑文档的大小、处理数据的类型，以及应用的内存限制等因素。理解两者的性能特点和适用场景，可以帮助开发者做出最适合项目需求的决策。

4. XML数据查询与转换技术

4.1 XPath数据查询技术

4.1.1 XPath表达式的构建与应用

XPath（XML Path Language）是一种在XML文档中查找信息的语言，它提供了一种简洁的方式来定位XML文档中的特定元素或属性。XPath表达式通过路径语法来指定需要检索的数据的路径。

一个XPath表达式通常从一个根节点开始，通过斜杠 / 或双斜杠 // 来指定路径。斜杠表示严格的路径，而双斜杠表示从当前节点开始的任何位置都可以匹配。

/books/book/title

上述XPath表达式表示从根节点开始，依次访问 books 、 book 节点，最后获取 title 节点的内容。

XPath还提供了丰富的函数和谓词来处理更复杂的数据查询。例如，如果你想找到所有书名中包含“XML”的书籍，你可以使用如下XPath表达式：

/books/book[contains(title, 'XML')]

谓词 [ ] 内的条件用于过滤节点集合。

4.1.2 XPath在数据检索中的高级用法

XPath的强大之处在于其灵活性和对复杂数据检索的支持。除了基本路径和谓词外，XPath还支持：

轴(Axis)：用于在树中向上或向下移动。
运算符：如并集( | )、算术运算符( + , - , * , div , mod )等。
函数：如 starts-with() , ends-with() , string-length() 等。

例如，要选择所有 book 元素下紧跟在 author 元素之后的 title 元素，可以使用 following-sibling 轴：

/books/book/author/following-sibling::title

4.1.3 XPath表达式应用实例

为了加深理解，以下是一个简单的XML文档示例，以及使用XPath表达式的示例查询：

XML文档示例：

<books>
  <book>
    <title>Learning XML</title>
    <author>Erik T. Ray</author>
  </book>
  <book>
    <title>XML in a Nutshell</title>
    <author>Elliotte Rusty Harold</author>
  </book>
</books>

使用XPath表达式来查询书名包含“XML”的书籍，可以编写如下：

/books/book[contains(title, 'XML')]

这个查询将会返回所有书名包含“XML”的 book 元素。通过这种方式，开发者可以灵活地从复杂的XML结构中提取所需的信息。

4.2 XSLT数据转换技术

4.2.1 XSLT的基本原理与结构

XSLT（Extensible Stylesheet Language Transformations）是一种用于转换XML文档的语言。它允许开发者定义XML文档的样式表，将一种XML结构转换成另一种结构，或者转换为HTML或其他格式。

XSLT的基本结构包含模板（Templates）和规则（Rules）。XSLT处理器根据模板和规则来处理XML文档，并输出转换后的数据。

<xsl:stylesheet version="1.0" xmlns:xsl="***">
  <!-- XSLT样式表的主要内容 -->
</xsl:stylesheet>

上述代码定义了一个XSLT样式表的基本结构。 xsl:stylesheet 是根元素， version 指定了XSLT的版本， xmlns:xsl 定义了一个命名空间，这个命名空间指向了XSLT处理规则。

4.2.2 XSLT转换过程详解与实例操作

XSLT转换过程包括读取源XML文档，应用XSLT样式表，并生成输出文档（通常是另一种格式的XML、HTML或纯文本）。

下面是一个简单的XSLT样式表示例，用于将上述书籍信息的XML文档转换为HTML：

<xsl:stylesheet version="1.0" xmlns:xsl="***">
  <xsl:output method="html"/>

  <xsl:template match="/">
    <html>
      <head>
        <title>Book List</title>
      </head>
      <body>
        <h1>Book List</h1>
        <table border="1">
          <tr>
            <th>Title</th>
            <th>Author</th>
          </tr>
          <xsl:for-each select="books/book">
            <tr>
              <td><xsl:value-of select="title"/></td>
              <td><xsl:value-of select="author"/></td>
            </tr>
          </xsl:for-each>
        </table>
      </body>
    </html>
  </xsl:template>
</xsl:stylesheet>

这个XSLT样式表包含了一个模板匹配根节点 (/) ，输出了一个HTML文档，并使用 <xsl:for-each> 来遍历每本书，并将书名和作者信息放入HTML表格中。

上述XSLT样式表可以应用于任何符合 books/book 结构的XML文档，并生成一个格式化的HTML书单。XSLT的强大之处在于它的模版驱动的转换方式，可以轻松处理复杂的XML结构转换。

4.2.3 XSLT与XPath的关系

XSLT与XPath紧密相关，XPath被用作XSLT中的定位语言。在XSLT样式表中，XPath表达式被广泛用于匹配节点、选择内容，并指定如何格式化输出。

XSLT处理器在执行时，会评估XPath表达式来确定哪些节点需要被处理，哪些节点符合样式表中的模板匹配规则。因此，XPath可以被看作是XSLT的心脏，是驱动转换过程的核心技术。

通过学习XPath和XSLT，开发者能够有效地处理XML数据，实现数据的查询、转换和展示，这在许多企业级应用和数据交换场景中都是非常有用的技能。

5. XML在Web服务中的应用

5.1 XML与SOAP协议

5.1.1 SOAP消息格式与通信过程

简单对象访问协议（SOAP） 是一种基于XML的消息传递协议，用于在分布式环境中交换信息。SOAP消息由以下几个部分组成：

信封（Envelope） ：这是必需的，定义了消息的开始和结束，以及消息是否是请求或响应。
头部（Header） ：可选部分，包含应用程序特定的消息数据，如身份验证信息、事务控制等。
体（Body） ：必需部分，包含了主要的调用信息，例如远程过程调用（RPC）的详细信息。
故障（Fault） ：可选部分，在SOAP通信中用来报告错误。

SOAP消息格式示例如下：

<soapenv:Envelope xmlns:soapenv="***"
                  xmlns:web="***">
   <soapenv:Header/>
   <soapenv:Body>
      <web:addNumbers>
         <web:a>5</web:a>
         <web:b>10</web:b>
      </web:addNumbers>
   </soapenv:Body>
</soapenv:Envelope>

5.1.2 基于SOAP的Web服务开发实践

在实践中，开发基于SOAP的Web服务通常涉及以下几个步骤：

定义服务接口 ：确定服务所提供的方法和参数。
创建WSDL文件 ：Web服务描述语言（WSDL）文件描述了服务的接口和绑定，使得客户端能够理解和调用服务。
实现服务逻辑 ：编写业务逻辑代码，用于执行WSDL文件中定义的操作。
部署服务 ：将服务代码部署到服务器上，并确保它可以处理SOAP请求。
测试服务 ：使用SOAP工具或编写客户端代码来测试服务的执行是否符合预期。

以下是一个简单的SOAP服务实现示例，使用Java语言：

import javax.jws.WebMethod;
import javax.jws.WebService;
import javax.jws.soap.SOAPBinding;

@WebService
@SOAPBinding(style = SOAPBinding.Style.RPC)
public class AddNumbersService {
    @WebMethod
    public int addNumbers(int a, int b) {
        return a + b;
    }
}

5.2 XML与RESTful服务

5.2.1 RESTful架构风格概述

REpresentational State Transfer (REST) 是一种基于HTTP协议的网络架构风格。RESTful架构风格的关键原则包括：

无状态通信 ：每个请求都包含处理请求所需的全部信息，无需服务器保持会话状态。
资源表示 ：使用统一资源标识符（URI）来标识资源，资源的表示可以是XML、JSON等格式。
使用标准方法 ：以HTTP方法（如GET、POST、PUT、DELETE）表示对资源的操作。
超媒体作为应用状态的引擎（HATEOAS） ：通过链接提供导航，使得客户端能够知道下一步可以进行哪些操作。

5.2.2 XML在RESTful服务中的应用实例

在RESTful架构中，XML可以作为数据交换格式，虽然JSON更加普遍，但在需要复杂数据结构时，XML的优势就显现出来了。以下是一个简单的RESTful服务实例，使用XML作为数据交换格式：

假设我们有一个Web服务，它提供了一组用户信息，并允许用户创建新用户。用户信息以XML格式表示，并通过HTTP GET和POST方法进行交互。

获取用户信息（GET请求）

请求URI: /users/123

响应XML数据：

<User>
   <Id>123</Id>
   <Name>John Doe</Name>
   <Email>***</Email>
</User>

创建新用户（POST请求）

请求XML数据：

<User>
   <Name>Jane Doe</Name>
   <Email>***</Email>
</User>

响应消息：

HTTP状态码：201 Created
Location头信息：指向新创建的用户资源的URI

通过以上示例，我们看到XML不仅能够用于SOAP协议的Web服务中，还可以在基于RESTful架构的服务中灵活使用，通过HTTP协议提供的方法来实现对资源的增删改查等操作。XML的可读性和强大的数据结构表示能力，使其在处理复杂的数据交换场景下仍然具有不可替代的作用。

本文还有配套的精品资源，点击获取

昊叔Crescdim

关注

19
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫