XML

最新推荐文章于 2021-05-18 09:43:16 发布

bm1998

最新推荐文章于 2021-05-18 09:43:16 发布

阅读量246

点赞数 1

分类专栏：前端文章标签： XML

本文链接：https://blog.csdn.net/bm1998/article/details/99041176

版权

前端专栏收录该内容

12 篇文章 0 订阅

订阅专栏

文章目录

1. XML 的概念
2. XML 的功能
3. XML 和 HTML 的区别
4. XML 基础语法
5. XML 练习
6. XML 组成部分
7. 约束文档
8. XML 解析
9. jsoup 解析器的使用

1. XML 的概念

XML(Extensible Markup Language)，可扩展标记语言。

可扩展：指标签都是用户自定义的。

标记语言：指由标签构成的语言，但标记语言不是编程语言。

2. XML 的功能

XML 主要用于存储数据，比如：

作为配置文件使用（代替 properties)
在网络中传输

3. XML 和 HTML 的区别

XML 标签都是自定义的，HTML 标签是预定义。
XML 是用于存储数据的，HTML 是用于展示数据的
XML 的语法严格，HTML 语法松散

4. XML 基础语法

XML 文档的后缀名为 .xml
XML 第一行必须定义为文档声明，如：
```
<?xml version='1.0'?>
```
XML 文档中有且仅有一个根标签（一个没有或者有多个会报错）
XML 属性值必须使用引号（单双都可）引起来
XML 标签必须正确关闭，围堵标签或者自闭和标签都行
XML 标签名称区分大小写

5. XML 练习

<?xml version='1.0'?>
<users>
	<user id='1'>
		<name>张三</name>
		<age>18</age>
	</user>
	<user id='2'>
		<name>李四</name>
		<age>19</age>
	</user>
</users>

6. XML 组成部分

文档声明
1. 格式
```
<?xml 属性列表 ?>
```
2. 属性列表
  - version：版本号（必须有）
  - encoding：编码方式（默认：ISO-8859-1）
  - standalone：是否独立，即是否依赖其他文件
    - yes：不依赖其他文件
    - no：依赖其他文件
标签

标签名称都是自定的，但标签名要遵守以下规则：
1. 名称可以包含字母、数字以及其他的字符
2. 名称不能以数字或者标点符号开始
3. 名称不能以字母 xml（或者 XML、Xml 等等）开始
4. 名称不能包含空格
属性

id 属性值唯一
文本
1. CDATA 区：在该区域中的数据会被原样展示
2. CDATA 区的格式
```
<![CDATA[ 数据 ]]>
```

7. 约束文档

约束文档的作用

约束文档是用来规定 XML 文档的书写规则。
对框架使用者的要求
1. 能够在 XML 中引入约束文档
2. 能够简单的读懂约束文档
约束文档的技术
1. DTD：一种简单的约束文档技术（有缺陷）
2. Schema：一种复杂的约束文档技术（DTD 的替代者）

DTD 的使用

阅读 dtd 文档

<!--ELEMENT 用来定义标签，ATTLIST 用来定义属性-->
<!--声明一个 students 标签，该标签中能放 student 子标签，* 表示 student 可以出现 0 或多次-->
<!ELEMENT students (student*) >
<!--声明一个 student 标签，该标签中能放 name,age,sex 子标签，每个只能出现一次-->
<!ELEMENT student (name,age,sex)>
<!--声明一个 name 标签，该标签中能放字符串，每个只能出现一次-->
<!ELEMENT name (#PCDATA)>
<!--声明一个 age 标签，该标签中能放字符串，每个只能出现一次-->
<!ELEMENT age (#PCDATA)>
<!--声明一个 sex 标签，该标签中能放字符串，每个只能出现一次-->
<!ELEMENT sex (#PCDATA)>
<!--声明一个 student 标签的属性 number，ID 表示该属性值唯一，REQUIRED 表示必须出现-->
<!ATTLIST student number ID #REQUIRED>

引入 dtd 文档到 XML 中

// 本地的 dtd 文件
<!DOCTYPE 根标签名 SYSTEM "dtd文件的位置">
// 网络的 dtd 文件
<!DOCTYPE 根标签名 PUBLIC "dtd文件名字(任意写)" "dtd文件的位置URL">

编写 XML

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE students SYSTEM "student.dtd">
<students>
	<student number="x001">
		<name>张三</name>
		<age>18</age>
		<sex>男</sex>
	</student>
	<student number="x002">
		<name>李四</name>
		<age>19</age>
		<sex>男</sex>
	</student>
</students>

DTD 的缺点

无法规定标签体内字符串的内容（例如，age 可以是数字，也可以是字符串）

Schema 的使用

阅读 Schema 文档（Schema 文档后缀为 .xsd）

<?xml version="1.0"?>
<xsd:schema xmlns="http://www.itcast.cn/xml"
        xmlns:xsd="http://www.w3.org/2001/XMLSchema"
        targetNamespace="http://www.itcast.cn/xml" elementFormDefault="qualified">
        
    <!--定义一个元素 students，元素类型 studentsType-->
    <xsd:element name="students" type="studentsType"/>
    <!--定义一个复合类型 studentsType-->
    <xsd:complexType name="studentsType">
        <!--按顺序出现-->
        <xsd:sequence>
            <!--定义一个元素 student，元素类型 studentType，最小出现 0 次，最多出现没有绑定-->
            <xsd:element name="student" type="studentType" minOccurs="0" maxOccurs="unbounded"/>
        </xsd:sequence>
    </xsd:complexType>
    <!--定义一个复合类型 studentType-->
    <xsd:complexType name="studentType">
        <!--按顺序出现-->
        <xsd:sequence>
            <!--定义一个元素 name，元素类型 string-->
            <xsd:element name="name" type="xsd:string"/>
            <!--定义一个元素 name，元素类型 ageType-->
            <xsd:element name="age" type="ageType" />
            <!--定义一个元素 name，元素类型 sexType-->
            <xsd:element name="sex" type="sexType" />
        </xsd:sequence>
        <!--定义一个属性 number，元素类型 numberType，必须存在-->
        <xsd:attribute name="number" type="numberType" use="required"/>
    </xsd:complexType>
    <!--定义一个简单类型 sexType-->
    <xsd:simpleType name="sexType">
        <!--基本的数据格式为 string-->
        <xsd:restriction base="xsd:string">
            <!--定义枚举类型，值只能为 male 或 female-->
            <xsd:enumeration value="male"/>
            <xsd:enumeration value="female"/>
        </xsd:restriction>
    </xsd:simpleType>
    <!--定义一个简单类型 ageType-->
    <xsd:simpleType name="ageType">
        <!--基本的数据格式为 integer-->
        <xsd:restriction base="xsd:integer">
            <!--最小值为 0-->
            <xsd:minInclusive value="0"/>
            <!--最大值为 256-->
            <xsd:maxInclusive value="256"/>
        </xsd:restriction>
    </xsd:simpleType>
    <!--定义一个简单类型 numberType-->
    <xsd:simpleType name="numberType">
        <!--基本的数据格式为 integer-->
        <xsd:restriction base="xsd:string">
            <!--格式必须是：X_四位数字-->
            <xsd:pattern value="x_\d{4}"/>
        </xsd:restriction>
    </xsd:simpleType>
</xsd:schema>

引入 Schema 文档到 XML 中

<?xml version="1.0" encoding="UTF-8" ?>
<!-- 引入 Schema 的步骤：
	1.填写 xml文档的根元素
	2.引入 xsi 前缀  如：xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	3.通过 xsi 前缀引入 Schema 文件的路径，文件的命名空间
	  如：xsi:schemaLocation="http://www.itcast.cn/xml student.xsd"
	4.为每一个 Schema 文件的命名空间声明一个前缀，作为标识，这样每个标签前都要加对应的前缀
	  如：xmlns:a="http://www.itcast.cn/xml"
	  注意：如果只引入一个 Schema 文件的话，可以使用默认前缀，这样每个标签前不用加前缀了
	  如：xmlns="http://www.itcast.cn/xml"
 -->
 <a:students   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
			 xsi:schemaLocation="http://www.itcast.cn/xml  student.xsd"
			 xmlns:a="http://www.itcast.cn/xml"
>
	<a:student number="x_0001">
		<a:name>张三</a:name>
		<a:age>18</a:age>
		<a:sex>male</a:sex>
	</a:student>
	<a:student number="x_0002">
		<a:name>李四</a:name>
		<a:age>19</a:age>
		<a:sex>female</a:sex>
	</a:student>
		 
 </a:students>

8. XML 解析

XML 解析的概念

将 XML 文档中的数据读取到内存中
解析 XML 的思想
1. DOM：将标记语言文档一次性加载进内存，在内存中形成一颗 DOM 树
  - 优点：操作方便，可以对文档进行 CRUD 的所有操作
  - 缺点：如果标记语言文档很大，会占内存
2. SAX：逐行读取，基于事件驱动
  - 优点：不占内存。（适用于内存较小设备，如手机）
  - 缺点：只能读取，不能增删改
常见的 XML 解析器
1. DOM4J：一款非常优秀的解析器，支持 DOM
2. jsoup：jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 JQuery 的操作方法来取出和操作数据。

9. jsoup 解析器的使用

jsoup 的使用步骤
1. 导入 jsoup 的 jar 包（jsoup-1.11.2.jar），右键 Add as Library
2. 获取 Document 对象
3. 获取对应的标签 Element 对象
4. 获取数据

jsoup 的练习

package com.zt.xml.jsoup;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;

public class JsoupDemo1 {
    public static void main(String[] args) throws IOException {
        // 1.获取 Document 对象
        // 1.1获取 student.xml 的文件路径(字符串表示形式）
        String path = JsoupDemo1.class.getClassLoader().getResource("test.xml").getPath();
        // 1.2解析 student.xml文档，加载文档进内存，获取 Document 对象
        Document document = Jsoup.parse(new File(path), "utf-8");

        // 2.获取元素对象 Element 集合
        Elements name = document.getElementsByTag("user");
        // 2.1 获取第一个 name
        Element element = name.get(1);

        // 3.获取数据
        String text = element.text();
        System.out.println(text);

    }
}

jsoup 的对象
1. Jsoup：工具类，可以解析 HTML 或 XML 文档，返回 Document 对象
  
  方法：
  - parse(File in, String charsetName)：解析 HTML 或 XML 文档
```
String path = JsoupDemo1.class.getClassLoader().getResource("test.xml").getPath();
Document document = Jsoup.parse(new File(path), "utf-8");
```
  - parse(URL url, int timeoutMillis)：通过网络路径获取指定的 HTML 或 XML 文档对象（可用于爬虫）
```
URL url = new URL("https://baike.baidu.com/item/jsoup");
Document document = Jsoup.parse(url,10000);
```
2. Document：文档对象，代表内存中的 DOM 树，主要用于获取 Elements 对象
  
  方法：
  - getElementById(String id)：根据 id 属性值获取唯一的 element 对象
  - getElementsByTag(String tagName)：根据标签名称获取元素对象集合
  - getElementsByAttribute(String key)：根据属性名称获取元素对象集合
  - getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合
3. Elements：元素 Element 对象的集合，可以当做 ArrayList 来使用
4. Element：元素对象，用于获取子元素对象
  
  方法：
  1. 获取子元素对象（与 Document 方法相同）
  2. 获取属性值
    - String attr(String key)：根据属性名称获取属性值
  3. 获取文本内容
    - String text()：获取文本内容
    - String html()：获取标签体的所有内容(包括字标签的字符串内容)

jsoup 快捷查询方式

快捷查询方式的作用

要获取某个标签，都是通过根标签开始，一层一层地往下寻找，这样很麻烦。快捷查询方式可以快速定位到我们要获取的标签

常用的快捷查询方式

selector：选择器查询

方法：Elements select(String cssQuery)
语法：参考 jsoup-1.11.2-javadoc 中 Selector 类中定义的语法

实例：

package com.zt.xml.jsoup;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;

public class JsoupDemo2 {
    public static void main(String[] args) throws IOException {
        // 1.获取 Document 对象
        // 1.1获取 student.xml 的文件路径(字符串表示形式）
        String path = JsoupDemo1.class.getClassLoader().getResource("test.xml").getPath();
        // 1.2解析 student.xml文档，加载文档进内存，获取 Document 对象
        Document document = Jsoup.parse(new File(path), "utf-8");

        // 查询 name 标签
        Elements user = document.select("name");
        System.out.println(user);

        System.out.println("----------");

        // 查询 id 值为 X_0001 的元素
        Elements select = document.select("#X_0001");
        System.out.println(select);

        System.out.println("----------");

        // 查询 id 值为 X_0002 的 user 元素的 age 标签
        Elements select1 = document.select("user[id='X_0002'] age");
        System.out.println(select1);


    }
}

XPath：XPath 为 XML 路径语言，它是一种用来确定 XML 文档中某部分位置的语言

使用：导入 XPath 的 jar 包（JsoupXpath-0.3.2.jar），右键 Add as Library
语法：查询 w3cshool 中 XPath 的语法

实例：

package com.zt.xml.jsoup;

import cn.wanghaomiao.xpath.exception.XpathSyntaxErrorException;
import cn.wanghaomiao.xpath.model.JXDocument;
import cn.wanghaomiao.xpath.model.JXNode;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import java.io.File;
import java.io.IOException;
import java.util.List;

public class JsoupDemo3 {
    public static void main(String[] args) throws IOException, XpathSyntaxErrorException {
        // 1.获取 Document 对象
        // 1.1获取 student.xml 的文件路径(字符串表示形式）
        String path = JsoupDemo1.class.getClassLoader().getResource("test.xml").getPath();
        // 1.2解析 student.xml文档，加载文档进内存，获取 Document 对象
        Document document = Jsoup.parse(new File(path), "utf-8");

        // 2.根据 Document 对象，创建 JXDocument 对象
        JXDocument jxDocument = new JXDocument(document);

        // 查询 name 标签
        List<JXNode> jxNodes = jxDocument.selN("//name");
        for (JXNode jxNode : jxNodes) {
            System.out.println(jxNode);
        }
        System.out.println("----------");

        // 查询 id 值为 X_0001 的 user 元素
        List<JXNode> jxNodes1 = jxDocument.selN("//user[@id='X_0001']");
        for (JXNode jxNode : jxNodes1) {
            System.out.println(jxNode);
        }
        System.out.println("----------");

        // 查询 id 值为 X_0002 的 user 元素的 age 标签
        List<JXNode> jxNodes2 = jxDocument.selN("//user[@id='X_0002']/age");
        for (JXNode jxNode : jxNodes2) {
            System.out.println(jxNode);
        }

    }
}

bm1998

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
XML

文章目录1. XML 的概念2. XML 的功能3. XML 和 HTML 的区别4. XML 基础语法5. XML 练习6. XML 组成部分7. 约束文档8. XML 解析9. jsoup 解析器的使用1. XML 的概念XML(Extensible Markup Language)，可扩展标记语言。可扩展：指标签都是用户自定义的。标记语言：指由标签构成的语言，但标记语言不是编程语言。...
复制链接

扫一扫