深入理解XML技术（看这一篇就够了）

最新推荐文章于 2025-04-02 06:11:54 发布

原创最新推荐文章于 2025-04-02 06:11:54 发布

· 8.9k 阅读

30 ·

版权

文章标签：

#xml

javaweb学习专栏收录该内容

4 篇文章

订阅专栏

XML

在这里插入图片描述
概念
XML（Extensible Markup Language）：可扩展标记语言

可扩展：标签都是自定义的。

发展历程
HTML和XML都是W3C（万维网联盟）制定的标准，最开始HTML的语法过于松散，于是W3C制定了更严格的XML语法标准，希望能取代HTML。但是程序员和浏览器厂商并不喜欢使用XML，于是现在的XML更多的用于配置文件及传输数据等功能。

是谁造成的HTML语法松散？
浏览器厂商。最开始W3C制定HTML的时候语法还是比较严格的。但浏览器厂商为了抢占市场，语法错误也可以解析成功HTML，最后“内卷”到HTML即使语法非常混乱也是可以被浏览器解析。

tips：归根到底是语法的制定者和使用者不一致造成了HTML语法混乱，JAVA语法严格就是因为java语言的运行工具java虚拟机也是sun公司（现在是oracle）出品的，语法不通过不让运行。

XML的功能

配置文件：在今后的开发过程当中我们会频繁使用框架（框架：半成品软件），使用框架时，需要写配置文件配置相关的参数，让框架满足我们的开发需求。而我们写的配置文件中就有一种文件类型是XML。
传输数据：在网络中传输数据时并不能传输java对象，所以我们需要将JAVA对象转成字符串传输，其中一种方式就是将对象转为XML类型的字符串。

XML基本语法

文件后缀名是.xml
第一行必须是文档声明
有且仅有一个根标签
标签必须正确关闭
标签名区分大小写
属性值必须用引号（单双都可）引起来

XML命名规则
XML 元素必须遵循以下命名规则：

1、名称可以包含字母、数字以及其他的字符。

2、名称不能以数字或者标点符号开始。

3、名称不能以字母 xml（或者 XML、Xml 等等）开始。

4、名称不能包含空格。

5、可使用任何名称，没有保留的字词。

最佳命名习惯

使名称具有描述性。使用下划线的名称也很不错：<first_name>、<last_name>。
名称应简短和简单，比如：<book_title>，而不是：<the_title_of_the_book>。
避免 “-” 字符。如果您按照这样的方式进行命名：“first-name”，一些软件会认为您想要从 first 里边减去 name。
避免 “.” 字符。如果您按照这样的方式进行命名：“first.name”，一些软件会认为 “name” 是对象 “first” 的属性。
避免 “:” 字符。冒号会被转换为命名空间来使用（稍后介绍）。
XML 文档经常有一个对应的数据库，其中的字段会对应 XML 文档中的元素。有一个实用的经验，即使用数据库的命名规则来命名 XML 文档中的元素。
在 XML 中，éòá 等非英语字母是完全合法的，不过需要留意，您的软件供应商不支持这些字符时可能出现的问题。

<?xml version="1.0" encoding="UTF-8"?>
<teachers>
    <teacher></teacher>
    <teacher></teacher>
</teachers>

XML组成部分

在这里插入图片描述
文档声明
文档声明必须放在第一行，格式为：

<?xml 属性列表 ?>

属性列表：
version：版本号（必须）
encoding：编码方式

标签

XML中标签名是自定义的，标签名有以下要求：

包含数字、字母、其他字符
不能以数字和标点符号开头，可以以_开头
不能包含空格

指令(了解)
指令是结合css使用的，但现在XML一般不结合CSS，语法为：

<?xml-stylesheet type="text/css" href="a.css" ?>

<?xml version="1.0" encoding="ISO-8859-1"?>
<?xml-stylesheet type="text/css" href="cd_catalog.css"?>
<CATALOG>
<CD>
<TITLE>Empire Burlesque</TITLE>
<ARTIST>Bob Dylan</ARTIST>
<COUNTRY>USA</COUNTRY>
<COMPANY>Columbia</COMPANY>
<PRICE>10.90</PRICE>
<YEAR>1985</YEAR>
</CD>
<CD>
<TITLE>Hide your heart</TITLE>
<ARTIST>Bonnie Tyler</ARTIST>
<COUNTRY>UK</COUNTRY>
<COMPANY>CBS Records</COMPANY>
<PRICE>9.90</PRICE>
<YEAR>1988</YEAR>
</CD>
</CATALOG>

属性
属性值必须用引号（单双都可）引起来

文本
如果想原样展示文本，需要设置CDATA区，格式为：

<![CDATA[文本]]>

CDATA区：可以输出特殊字符：原样的显示书写在CDATA的内容。会原封不动的显示出去。

我们可以使用预定义的实体，去替代一些特殊字符的输出。

注意实体的写法：&实体的名字;

<	<	小于
>	>	大于
&	&	和号
&apos ;	’	单引
&quot ;	" "	双引

约束

DTD约束

虽然XML标签是自定义的。但是作为配置文件时，也需要遵循一定的规则。就比如在主板上硬盘口只能插硬盘，不能插入其他硬件。约束就是定义XML书写规则的文件，约束我们按照框架的要求编写配置文件。

我们作为框架的使用者，不需要会写约束文件，只要能够在xml中引入约束文档，简单的读懂约束文档即可。XML有两种约束文件类型：DTD和Schema。

DTD是一种较简单的约束技术，引入方式如下：

本地引入：

<!DOCTYPE 根标签名 SYSTEM "dtd文件的位置">

student.dtd

<!--在父标签students下可以有多个student标签-->
<!ELEMENT students(student*)> 
<!--在标签student下有name,age,sex标签-->
<!ELEMENT student(name,age,sex)>
<!--在标签name,age,sex需要赋值文本-->
<!ELEMENT name(#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT sex(#PCDATA)>
<!--在student标签内必须带有number属性并且不能重复-->
<!ATTLIST student number ID #REQUIRED>

<?xml version="1.0"?>
<!DOCTYPE students SYSTEM "student.dtd"><students>
<student number="001">
    <name>jjy</name>
    <age>10</age>
    <sex>男</sex>
</student>
<student number="002">
    <name>lxm</name>
    <age>11</age>
    <sex>女</sex>
</student>
</students>

网络引入：

<!DOCTYPE 根标签名 PUBLIC "dtd文件的位置" "dtd文件路径">

Schema约束

Schema比DTD对XML的约束更加详细，引入方式如下：

写xml文档的根标签
引入xsi前缀：确定Schema文件的版本。

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

引入Schema文件

xsi:schemaLocation="Schema文件定义的命名空间 Schema文件的具体路径"

为Schema约束的标签声明前缀

xmlns:前缀="Schema文件定义的命名空间"

例如：

<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
           xmlns="http://www.example.org/bookSchema"
           targetNamespace="http://www.example.org/bookSchema"
           elementFormDefault="qualified">
    <!--
        xmlns:xs="http://www.w3.org/2001/XMLSchema"  约束XML里使用xs:作前缀的元素、属性、类型等名称的变量是属于
        xmlns="http://www.example.org/bookSchema" 表示默认的命名空间是,也就是指定未使用任何前缀的元素、数据的命名空间为它.
        targetNamespace="http://www.example.org/bookSchema" 显示被此 schema 定义的元素来自命名空间
        elementFormDefault="qualified"  所有全局元素的子元素将被以缺省方式放到无名命名空间
    -->
    <xs:element name='books'>
        <xs:complexType>
            <!-- minOccurs/maxOccurs:指定元素出现的次数-->
            <!-- minOccurs：限制最小出现次数,0表示不限制 -->
            <!-- maxOccurs：限制最大出现次数,unbounded表示无限制 -->
            <xs:sequence maxOccurs='unbounded '>
                <xs:element name='book'>
                    <xs:complexType>
                        <xs:sequence>
                            <!--定义name标签-->
                            <xs:element name='name' type="xs:string"/>
                            <!--定义author标签-->
                            <xs:element name="author" >
                                <!--定义author标签的属性-->
                                <xs:complexType>
                                    <xs:simpleContent>
                                        <xs:extension base="xs:string">
                                            <xs:attribute name="name" type="xs:string"/>
                                        </xs:extension>
                                    </xs:simpleContent>
                                </xs:complexType>
                            </xs:element>
                            <!--定义price标签-->
                            <xs:element name='price' type="xs:double"/>
                        </xs:sequence>
                    </xs:complexType>
                </xs:element>
            </xs:sequence>
        </xs:complexType>
    </xs:element>
</xs:schema>

引入xsd约束

<?xml version="1.0" encoding="UTF-8" ?>
<books xmlns="http://www.example.org/bookSchema"
       xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
       xsi:schemaLocation="http://www.example.org/bookSchema book.xsd">
    <book>
        <name>红楼梦</name>
        <author>曹雪芹</author>
        <price>29.9</price>
    </book>
    <book>
        <name>三国演义</name>
        <author>罗贯中</author>
        <price>39.9</price>
    </book>
</books>

Jsoup解析器

XML解析即读写XML文档中的数据。框架的开发者通过XML解析读取框架使用者配置的参数信息，开发者也可以通过XML解析读取网络传来的数据。XML有如下解析思想：

DOM

将标记语言文档一次性加载进内存，在内存中形成一颗dom树

优点：操作方便，可以对文档进行CRUD的所有操作
缺点：占内存
在这里插入图片描述

<?xml version="1.0"?>
<!DOCTYPE students SYSTEM "student.dtd"><students>
<student number="001">
    <name>jjy</name>
    <age>10</age>
    <sex>男</sex>
</student>
<student number="002">
    <name>lxm</name>
    <age>11</age>
    <sex>女</sex>
</student>
</students>

SAX

逐行读取，基于事件驱动的。

优点：不占内存，一般用于手机APP开发中读取XML
缺点：只能读取，不能增删改

XML常见解析器

JAXP：SUN公司提供的解析器，支持DOM和SAX两种思想
DOM4J：一款非常优秀的解析器
Jsoup：Jsoup是一款Java的HTML解析器，支持DOM思想。可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过CSS以及类似于jQuery的操作方法来取出和操作数据
PULL：Android操作系统内置的解析器，支持SAX思想

DOM4J

dom4j是一个Java的XML API，类似于jdom，用来读写XML文件的。性能优异功能强大简单易用开放源代码。

优点
①大量使用了Java集合类，方便Java开发人员，同时提供一些提高性能的替代方法。 ②支持XPath。 ③有很好的性能。

缺点
大量使用了接口，API较为复杂

接下来我就演示一下使用DOM4J读取一下xml文件里的内容输出到控制台。

首先我们需要在目录下创建一个lib包，把下面的链接地址中的jar包放到lib包内，并手动添加到模块。

DOM4J的jar包
DOM4J

引入jar包

Student.xml

<?xml version="1.0"?>
<!DOCTYPE students SYSTEM "student.dtd">
<students>
<student number="001">
    <name>jjy</name>
    <age>10</age>
    <sex>男</sex>
</student>
<student number="002">
    <name>lxm</name>
    <age>11</age>
    <sex>女</sex>
</student>
</students>

测试类

public class DOMTest {
    public static void main(String[] args) throws DocumentException {
        SAXReader reader=new SAXReader();
        Document document = reader.read("Student.xml");
        //获取根目录元素对象
        Element dom = document.getRootElement();
        //获取所有根目录下的子节点
        List<Element> elements = dom.elements();
        for (Element element : elements) {
            //输出子节点的属性id值
            System.out.println(element.attributeValue("number"));
            //输出name值
            System.out.println(element.elementText("name"));
            //输出author值
            System.out.println(element.elementText("sex"));
            //输出price值
            System.out.println(element.elementText("age"));
            System.out.println("----------------");
        }
    }
}

Jsoup

Jsoup jar包

导入jar包
加载XML文档进内存，获取DOM树对象Document
获取对应的标签Element对象
获取数据

public class Demo1 {
  // 获取XML中所有学生的姓名
  public static void main(String[] args) throws IOException {
    // 2.加载XML文档进内存。获取DOM树对象Document
    // 2.1 获取类加载器
    ClassLoader classLoader = Demo1.class.getClassLoader();
    // 2.2使用类加载器，找到XML文档的路径
    String path = classLoader.getResource("com/jjy/xsd/student.xml").getPath();
    // 2.3加载XML文档进内存，并转成Document对象
    Document document = Jsoup.parse(new File(path), "utf-8");
    // 3.获取对应的标签Element对象
    Elements name = document.getElementsByTag("name");
    // 4.获取数据
    for (Element element : name) {
      String text = element.text();
      System.out.println(text);
     }
   }
}

Jsoup：可以解析xml或html，形成dom树对象。

常用方法：

static Document parse(File in, String charsetName)：解析本地文件
static Document parse(String html)：解析html或xml字符串
static Document parse(URL url, int timeoutMillis)：解析网页源文件

public class Demo2 {
  // Jsoup
  public static void main(String[] args) throws IOException {
    // 解析本地XML
    String path = Demo2.class.getClassLoader().getResource("com/jjy/xsd/student.xml").getPath();
    Document document = Jsoup.parse(new File(path), "utf-8");
    System.out.println(document);
    System.out.println("------------------");


    // 解析字符串
    Document document1 = Jsoup.parse("<?xml version=\"1.0\" ?>\n" +
        "<students>\n" +
        "   <student number=\"baizhan_0001\">\n" +
        "     <name>baizhan</name>\n" +
        "     <age>10</age>\n" +
        "     <sex>male</sex>\n" +
        "   </student>\n" +
        "   <student number=\"baizhan_0002\">\n" +
        "     <name>sxt</name>\n" +
        "     <age>11</age>\n" +
        "     <sex>female</sex>\n" +
        "   </student>\n" +
        "</students>");
    System.out.println(document1);
    System.out.println("---------------------------------");


    // 解析网络资源
    Document document2 = Jsoup.parse(new URL("https://www.baidu.com"), 2000);
    System.out.println(document2);
   }
}

Document

Document：xml的dom树对象

常用方法：

Element getElementById(String id)：根据id获取元素
Elements getElementsByTag(String tagName)：根据标签名获取元素
Elements getElementsByAttribute(String key)：根据属性获取元素
Elements getElementsByAttributeValue(String key,String value)：根据属性名=属性值获取元素。
Elements select(Sting cssQuery)：根据选择器选取元素。

Student.xml

<?xml version="1.0"?>
<students>
<student id="001">
    <name english="bz">jjy</name>
    <age class="aa">10</age>
    <sex>男</sex>
</student>
<student id="002">
    <name english="sx">lxm</name>
    <age>11</age>
    <sex>女</sex>
</student>
</students>

public class Demo3 {
  // Document
  public static void main(String[] args) throws IOException {
    String path = Demo3.class.getClassLoader().getResource("com/jjy/jsoup/student.xml").getPath();
    Document document = Jsoup.parse(new File(path), "utf-8");


    // 根据id获取元素
    Element baizhan_0001 = document.getElementById("001");
    System.out.println(baizhan_0001);
    System.out.println("----------------------");


    // 根据标签获取元素
    Elements age = document.getElementsByTag("age");
    for (Element element : age) {
      System.out.println(element);
     }
    System.out.println("----------------------");


    // 根据属性获取元素
    Elements english = document.getElementsByAttribute("english");
    for (Element element : english) {
      System.out.println(element);
     }
    System.out.println("----------------------");


    // 根据属性名=属性值获取元素
    Elements elementsByAttributeValue = document.getElementsByAttributeValue("english", "bz");
    for (Element element : elementsByAttributeValue) {
      System.out.println(element);
     }
    System.out.println("----------------------");


    // 使用CSS选择器获取元素
    Elements select = document.select("#001");
    System.out.println(select);
    System.out.println("----------------------");
    Elements sex = document.select("sex");
    System.out.println(sex);
    System.out.println("----------------------");
    Elements select1 = document.select(".aa");
    System.out.println(select1);
   }
}

Element: 元素对象

常用方法：

String text()：获取元素包含的纯文本。
String html()：获取元素包含的带标签的文本。
String attr(String attributeKey)：获取元素的属性值。

public class Demo4 {
  // Document
  public static void main(String[] args) throws IOException {
    String path = Demo4.class.getClassLoader().getResource("com/jjy/jsoup/student.xml").getPath();
    Document document = Jsoup.parse(new File(path), "utf-8");


    // 使用CSS选择器获取元素
    Elements elements = document.select("#001");
    Element element = elements.get(0);
    System.out.println(element.text());
    System.out.println("-----------------------");
    System.out.println(element.html());
    System.out.println("-----------------------");
    System.out.println(element.attr("id"));
   }
}

XPath解析

XPath jar包

使用方法：

导入Xpath的jar包
获取Document对象
将Document对象转为JXDocument对象
JXDocument调用selN(String xpath)，获取List对象。
遍历List，调用JXNode的getElement()，转为Element对象。
处理Element对象。

public class Demo5 {
  // Document
  public static void main(String[] args) throws IOException, XpathSyntaxErrorException {
    String path = Demo5.class.getClassLoader().getResource("com/jjy/jsoup/student.xml").getPath();
    // 1. 获取`Document`对象
    Document document = Jsoup.parse(new File(path), "utf-8");
    //2. 将`Document`对象转为`JXDocument`对象
    JXDocument jxDocument = new JXDocument(document);
    //3. `JXDocument`调用`selN(String xpath)`，获取`List<JXNode>`对象。
//     List<JXNode> jxNodes = jxDocument.selN("//name");
    // 想拿到baizhan_0001的年龄
    List<JXNode> jxNodes = jxDocument.selN("//student[@id=' 001']/age");
    //4. 遍历`List<JXNode>`，调用`JXNode`的`getElement()`，转为`Element`对象。
    for (JXNode jxNode : jxNodes) {
      Element element = jxNode.getElement();
      //5. 处理`Element`对象。
      System.out.println(element);
     }
   }
}