xml

最新推荐文章于 2024-11-09 06:09:30 发布

金钰～

最新推荐文章于 2024-11-09 06:09:30 发布

阅读量298

点赞数

分类专栏： javaweb 文章标签： xml

本文链接：https://blog.csdn.net/qq_42105648/article/details/104121355

版权

javaweb 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文详细介绍了XML的基础知识，包括XML的作用、组成元素、约束技术（DTD和Schema），并深入探讨了DOM4j解析XML和XPath在XML文档查询中的应用。通过实例展示了如何使用DOM4j和XPath进行XML解析和数据提取。

摘要由CSDN通过智能技术生成

xml

能够说出XML的作用
了解XML的组成元素
能够说出有哪些XML约束技术
能够说出解析XML文档DOM方式原理
能够通过Dom4j解析XML文档
能够使用xpath解析HTML文档

第一章 xml

1.1 xml概述

什么是XML

XML ：可扩展标记语言（EXtensible Markup Language）

XML 它是一种标记语言，很类似 HTML，HTML文件也是XML文档，标签都是自定义的。如：<user></user> 或 <student></student>
W3C在1988年2月发布1.0版本，2004年2月又发布1.1版本，单因为1.1版本不能向下兼容1.0版本，所以1.1没有人用。同时，在2004年2月W3C又发布了1.0版本的第三版。我们要学习的还是1.0版本。

XML 与 HTML 的主要差异

xml标签都是自定义的，html标签是预定义。
xml的语法严格，html语法松散。
xml是存储数据的，html是展示数据。

xml的作用

存放数据

<?xml version="1.0" encoding="UTF-8"?>
<persons>
	<person id="p001">
		<name>张三</name>
	</person>
	<person id="p002">
		<name>李四</name>
	</person>
</persons>

类似于java代码

class Person{
	String id;
	String name;
}

public void test(){
	HashSet<Person> persons = new HashSet<Person>();
	persons.add( new Person("p001","张三") );
	persons.add( new Person("p002","李四") );
}

配置文件

<?xml version="1.0" encoding="UTF-8"?>
<beans>
	<bean className="com.itheima_00_Bean.User">
		<property name="username" value="jack"></property>
	</bean>
</beans>

类似于java代码

class Bean{
	private String username;
	private String pws;
	//补全set\get方法
}

import com.itheima_00_Bean.User;
public static void main(){
    Class clzzz = Class.forName("com.itheima_00_Bean.User");
    Object obj = clazz.newInstance();
    Method method = clazz.getMethod("setUsername",String.class);
    method.invoke(obj,"jack");
}

1.2 xml的组成元素

文档声明

XML文档声明格式：

<?xml version="1.0" encoding="UTF-8"?>

文档声明必须为<?xml开头，以?>结束；
文档声明必须从文档的0行0列位置开始；
文档声明只有2个属性：

1. versioin：指定XML文档版本。必须属性，因为我们不会选择1.1，只会选择1.0；
2. encoding：指定当前文档的编码。可选属性，默认值是utf-8；

元素

元素 element

<bean></bean>

元素是XML文档中最重要的组成部分，
普通元素的结构开始标签、元素体、结束标签组成。例如：<hello>大家好</hello>
元素体：元素体可以是元素，也可以是文本，例如：<b><a>你好</a></b>
空元素：空元素只有开始标签，而没有结束标签，但元素必须自己闭合，例如：<c/>
元素命名：

1. 区分大小写
2. 不能使用空格，不能使用冒号:
3. 不建议以XML、xml、Xml开头

格式化良好的XML文档，必须只有一个根元素。

属性

属性 attribute

<beanid="" className="">

属性是元素的一部分，它必须出现在元素的开始标签中
属性的定义格式：属性名=属性值，其中属性值必须使用单引或双引
一个元素可以有0~N个属性，但一个元素中不能出现同名属性
属性名不能使用空格、冒号等特殊字符，且必须以字母开头

注释

XML的注释，以“ ”结束。注释内容会被XML解析器忽略！

转义字符

因为很多符号已经被XML文档结构所使用，所以在元素体或属性值中想使用这些符号就必须使用转义字符，例如：“<”、“>”、“’”、“””、“&”。

在这里插入图片描述
批量转义

<?xml version="1.0" encoding="UTF-8" ?>
<!--
    xml文档的转义字符
    CDATA区域: 无论是什么,认为纯文本

    <![CDATA[
    ]]>
 -->
<persons>
    if(1 &lt; 2 ){}
    3 &lt; 4?"呵呵":"嘻嘻"

    <![CDATA[
         public static void main(String[] args){
        for(int a = 1; a < 10 ;a++){
        System.out.println("hello "+a);
        }

        char c = 'a';
        }
    ]]>



</persons>

1.3 xml约束

在XML技术里，
可以编写一个文档来约束一个XML文档的书写规范，这称之为XML约束。
常见的xml约束：DTD、Schema

1.3.1 DTA约束

什么是DTD

DTD（Document Type Definition），文档类型定义，用来约束XML文档。规定XML文档中元素的名称，子元素的名称及顺序，元素的属性等。

DTD重点要求

开发中，我们很少自己编写DTD约束文档，通常情况我们都是通过框架提供的DTD约束文档，编写对应的XML文档。常见框架使用DTD约束有：struts2、hibernate等。

通过提供的DTD“bean.dtd”编写XML

<?xml version="1.0" encoding="UTF-8"?>
<!--
	传智播客DTD教学实例文档。
	模拟spring规范，如果开发人员需要在xml使用当前DTD约束，必须包括DOCTYPE。
	格式如下：
	<!DOCTYPE beans SYSTEM "bean.dtd">
-->

<?xml version="1.0" encoding="UTF-8"?>
<!--
	传智播客DTD教学实例文档。
	模拟spring规9范，如果开发人员需要在xml使用当前DTD约束，必须包括DOCTYPE。
	格式如下：
	<!DOCTYPE beans SYSTEM "bean.dtd">
-->
<!--根标签里有两个子标签-->
<!ELEMENT beans (bean*,import*) >
<!--bean里有property标签,*表示0个或者多个-->
<!ELEMENT bean (property*)>
<!--property标签 (#PCDATA)只能写文本-->
<!ELEMENT property (#PCDATA)>
<!--import标签 (#PCDATA)只能写文本-->
<!ELEMENT import (#PCDATA)>
<!--大写ID意思是变量唯一并且必须有值 #REQUIRED表示必有属性 #IMPLIED表示可选属性-->
<!ATTLIST bean id ID #REQUIRED
			   className CDATA #REQUIRED
			   type CDATA #IMPLIED
>

<!ATTLIST property name CDATA #REQUIRED
			   	   value CDATA #REQUIRED
>

<!ATTLIST import resource CDATA #REQUIRED>

案例实现

完成xml内容编写

<?xml version="1.0" encoding="UTF-8"?>
<!--
   学习DTD约束任务:
     通过已经有的约束,来编写自己的xml
     DTD文档引入到xml

     <!DOCTYPE beans SYSTEM "bean.dtd">
     beans: 就是自己的xml文档的根标签
     SYSTEM:系统, 约束文件在自己的机器上
     "bean.dtd": 约束文件的路径

     利用开发工具的提示
-->
<!DOCTYPE beans SYSTEM "bean.dtd">
<beans>
	<bean id="" className=""></bean>
	
	<bean id="" className="">
		<property name="" value=""></property>
		<property name="" value=""></property>
	</bean>
	
	<import resource=""></import>
	<import resource=""></import>

</beans>

1.3.2 Schema约束

什么是Schema

Schema是新的XML文档约束；
Schema要比DTD强大很多，是DTD 替代者；
Schema本身也是XML文档，但Schema文档的扩展名为xsd，而不是xml。
Schema 功能更强大，数据类型更完善
Schema 支持名称空间

Schema重点要求

与DTD一样，要求可以通过schema约束文档编写xml文档。常见框架使用schema的有：Spring等

在这里插入图片描述
通过提供“bean-schema.xsd”编写xml文档

<?xml version="1.0" encoding="UTF-8"?>
<!-- 
	传智播客Schema教学实例文档。
	模拟spring规范，如果开发人员需要在xml使用当前Schema约束，必须包括指定命名空间。
	格式如下：
	<beans xmlns="http://www.itcast.cn/bean"
	   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	   xsi:schemaLocation="http://www.itcast.cn/bean bean-schema.xsd"
	>
-->
<schema xmlns="http://www.w3.org/2001/XMLSchema" 
		targetNamespace="http://www.itcast.cn/bean"
		xmlns:xsd="http://www.w3.org/2001/XMLSchema"
		xmlns:tns="http://www.itcast.cn/bean" 
		elementFormDefault="qualified">
	<!-- 声明根标签 
		1. <element> 声明元素(标签)
		2. 每一个元素必须确定类型：
			complexType 复杂类型
			simpleType 简单类型,一般不用，大部分都是复杂类型
		3. 需要继续明确子标签出差顺序
			<choice> 选择， ()
			<sequence> 顺序 ，
			<all> 任意
				minOccurs 最少出现次数
				maxOccurs 最大出现次数，unbounded 不限制(没有边)
		4.<attribute>用于给元素声明属性的
			use 设置属性使用， optional可选、required必选
			
	-->
	<element name="beans">
		<complexType>
			<choice minOccurs="0" maxOccurs="unbounded">
				<element name="bean">
					<complexType>
						<sequence minOccurs="0" maxOccurs="unbounded">
							<element name="property">
								<complexType>
									<attribute name="name" use="optional"></attribute>
									<attribute name="value" use="required"></attribute>
								</complexType>
							</element>
						</sequence>
						<attribute name="id" use="required"></attribute>
						<attribute name="className" use="required"></attribute>
					</complexType>
				</element>
				<element name="import">
					<complexType>
						<attribute name="resource" use="required"></attribute>
					</complexType>
				</element>
			</choice>
		</complexType>
	</element>
</schema>

l 案例文档中同一个“命名空间”分别使用“默认命名空间”和“显示命名空间”进行引入，所以文档中和xsd:schema作用一样。

在这里插入图片描述

案例实现

完成xml内容编写

<?xml version="1.0" encoding="UTF-8"?>
<!--
  	<beans xmlns="http://www.itcast.cn/bean"
	   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	   xsi:schemaLocation="http://www.itcast.cn/bean bean-schema.xsd"


	    xmlns="http://www.itcast.cn/bean"
	    命名空间的名字 xmlns="名字"  W3C标准, 命名空间的名字必须全球唯一性
	    域名:itcast.cn    /bean2  /bean3

	     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	     W3C的官方约束

	    xsi:schemaLocation="命名空间名 约束文档的路径"
	>
-->
<beans xmlns="http://www.itcast.cn/bean"
	   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	   xsi:schemaLocation="http://www.itcast.cn/bean bean-schema.xsd"
>
	<bean id="" className=""></bean>
	<bean id="" className="">
		<property name="" value=""/>
		<property name="" value=""/>
	</bean>
	
	<import resource=""/>
	<import resource=""/>
</beans>

命名空间（语法）

什么是命名空间

如果一个XML文档中使用多个Schema文件，而这些Schema文件中定义了相同名称的元素时就会出现名字冲突。这就像一个Java文件中使用了import java.util.*和import java.sql.*时，在使用Date类时，那么就不明确Date是哪个包下的Date了。
在这里插入图片描述

总之名称空间就是用来处理元素和属性的名称冲突问题，与Java中的包是同一用途。如果每个元素和属性都有自己的名称空间，那么就不会出现名字冲突问题，就像是每个类都有自己所在的包一样，那么类名就不会出现冲突。

约束文档和xml关系

当W3C提出Schema约束规范时，就提供“官方约束文档”。我们通过官方文档，必须“自定义schema 约束文档”，开发中“自定义文档”由框架编写者提供。我们提供“自定义文档”限定，编写出自己的xml文档。

在这里插入图片描述

声明命名空间

默认命名空间：<xxx xmlns=””>，使用<标签>
显式命名空间：<xxx xmlns:别名=””>，使用<别名:标签>

在这里插入图片描述

第二章 dom4j

2.1 xml解析概述

当将数据存储在XML后，我们就希望通过程序获得XML的内容。如果我们使用Java基础所学习的IO知识是可以完成的，不过你需要非常繁琐的操作才可以完成，且开发中会遇到不同问题（只读、读写）。人们为不同问题提供不同的解析方式，并提交对应的解析器，方便开发人员操作XML。

2.2 常见的解析方式和解析器

开发中比较常见的解析方式有三种，如下：

DOM：要求解析器把整个XML文档装载到内存，并解析成一个Document对象。

优点：元素与元素之间保留结构关系，故可以进行增删改查操作。
缺点：XML文档过大，可能出现内存溢出显现。

SAX：是一种速度更快，更有效的方法。它逐行扫描文档，一边扫描一边解析。并以事件驱动的方式进行具体解析，每执行一行，都将触发对应的事件。（了解）
```
优点：处理速度快，可以处理大文件
缺点：只能读，逐行后将释放资源。
```
PULL：Android内置的XML解析方式，类似SAX。（了解）

解析器：就是根据不同的解析方式提供的具体实现。有的解析器操作过于繁琐，为了方便开发人员，有提供易于操作的解析开发包。

在这里插入图片描述

常见的解析开发包：
- JAXP：sun公司提供支持DOM和SAX开发包
- JDom：dom4j兄弟
- jsoup：一种处理HTML特定解析开发包
- dom4j：比较常用的解析开发包，hibernate底层采用。

2.3 dom解析原理和结构模型

XML DOM 将整个XML文档加载到内存，生成一个DOM树，并获得一个Document对象，通过Document对象就可以对DOM进行操作

在这里插入图片描述

DOM中的核心概念就是节点，在XML文档中的元素、属性、文本等，在DOM中都是节点！

在这里插入图片描述

2.4 API使用

DOM4J是一个Java的XML API，具有性能优异、功能强大和极其易使用的特点，它的性能超过sun公司官方的dom技术，如今可以看到越来越多的Java软件都在使用DOM4J来读写XML。

如果想要使用DOM4J，需要引入支持xpath的jar包 dom4j-1.6.1.jar

DOM4J必须使用核心类SaxReader加载xml文档获得Document，通过Document对象获得文档的根元素，然后就可以操作了。

常用API如下：

SaxReader对象
```
read(…) 加载执行xml文档
```
Document对象
```
getRootElement() 获得根元素
```

Element对象

elements(…) 获得指定名称的所有子元素。可以不指定名称
element(…) 获得指定名称第一个子元素。可以不指定名称
getName() 获得当前元素的元素名
attributeValue(…) 获得指定属性名的属性值
elementText(…) 获得指定名称子元素的文本值
getText() 获得当前元素的文本内容

API案例实现

编写xml文件

<?xml version="1.0" encoding="UTF-8"?>
<beans>
	<bean id="001" className="cn.itcast.demo.User">
		<property name="user" value="jack">qq</property>
		<property name="user" value="rose">weixin</property>
   </bean>

	<bean id="002" className="cn.itcast.demo.Admin">
		<property name="user" value="admin">feixin</property>
		<property name="user" value="write">msn</property>
	</bean>
</beans>

编写解析xml代码

 *
 *  Document对象,表示整个的xml文档
 *  方法:
 *     Element getRootElement() 获取的是文档中的根元素对象
 *     返回值肯定是标签对象: Element
 *
 *  Element对象,表示的是标签对象
 *  方法:
 *        List<Element> elements() 获取所有子标签,返回值结果集合
 *        获取的子标签,也是标签对象
 *
 *        String attributeValue("属性名") 获取标签对象的属性值,返回值String
 *
 *        String getText()获取标签体的文本
 *
 */
public class DomReadXml {
    public static void main(String[] args) throws Exception{
        //创建核心类对象
        SAXReader sax = new SAXReader();
        //sax对象,方法read()读取xml
        //返回对象Document
        Document document =  sax.read("xml/xml/data.xml");
        //document对象方法,获取根标签 getRootElement()
        Element rootElement =  document.getRootElement();
        //rootElement根标签对象方法  elements()所有子标签
        List<Element> beanElements = rootElement.elements();
        //遍历集合,取出每个bean标签
        for (Element beanElement : beanElements){
            //遍历,变量beanElement,每个子标签bean
            //获取bean标签属性值attributeValue(属性名)
            String id = beanElement.attributeValue("id");
            String className = beanElement.attributeValue("className");
            System.out.println(id+"=="+className);
            //beanElement子标签,获取bean的子标签property
            List<Element> propertyElements = beanElement.elements();
            for (Element propertyElement : propertyElements){
                //propertyElement遍历到的子标签property
                //获取property标签的属性
                String name = propertyElement.attributeValue("name");
                String value = propertyElement.attributeValue("value");
                //获取property标签的标签体文本
                String text = propertyElement.getText();
                System.out.println("\t"+name+"=="+value+"=="+text);
            }
        }
    }
}

第三章 XPath解析XML

XPath 是一门在 XML、html 文档中查找信息的语言。

XPath 是一个 W3C 标准，可通过W3CSchool文档查阅语法

由于DOM4J在解析XML时只能一层一层解析，所以当XML文件层数过多时使用会很不方便，结合XPATH就可以直接获取到某个元素

使用dom4j支持xpath具体操作

默认的情况下，dom4j不支持xpath，如果想要在dom4j里面使用xpath，需要引入支持xpath的jar包 jaxen-1.1.6.jar

在dom4j里面提供了两个方法，用来支持xpath

List<Node> selectNodes("xpath表达式")，用来获取多个节点
Node selectSingleNode("xpath表达式")，用来获取一个节点

xpath表达式常用查询形式

第一种查询形式

//AAA//DDD//BBB： 表示一层一层的，AAA下面 DDD下面的BBB

第二种查询形式

//BBB： 表示和这个名称相同，表示只要名称是BBB 都得到

第三种查询形式
```
/*: 所有元素
```
第四种查询形式

BBB[1]：表示第一个BBB元素
BBB[last()]：表示最后一个BBB元素

第五种查询形式

//BBB[@id]： 表示只要BBB元素上面有id属性 都得到

第六种查询形式

 //BBB[@id='b1'] 表示元素名称是BBB,在BBB上面有id属性，并且id的属性值是b1

案例实现

案例1
编写xml文件

<?xml version="1.0" encoding="UTF-8" ?>
<students>
	<student number="heima_0001">
		<name id="itcast">
			<xing>张</xing>
			<ming>三</ming>
		</name>
		<age>18</age>
		<sex>male</sex>
	</student>
	<student number="heima_0002">
		<name>jack</name>
		<age>18</age>
		<sex>female</sex>
	</student>
</students>

编写xpath代码解析xml文件

import org.dom4j.Document;
import org.dom4j.Node;
import org.dom4j.io.SAXReader;

import java.io.File;
import java.util.List;

/**
 *XPath查询
 */
public class Demo4jXpath {
    public static void main(String[] args) throws Exception {
        SAXReader saxReader=new SAXReader();
        String path = Demo4jXpath.class.getClassLoader().getResource("student.xml").getFile();
        File file = new File(path);
        Document document=saxReader.read(file);

        //4.结合xpath语法查询
        //4.1查询所有student标签
        List<Node> nodes = document.selectNodes("//student");
        for (Node node : nodes) {
            System.out.println(node);
        }

        System.out.println("--------------------");

        //4.2查询所有student标签下的name标签
       nodes = document.selectNodes("//student/name");
        for (Node node : nodes) {
            System.out.println(node);
        }

        System.out.println("--------------------");

        //4.3查询student标签下带有id属性的name标签
        nodes = document.selectNodes("//student/name[@id]");
        for (Node node : nodes) {
            System.out.println(node);
        }
        System.out.println("--------------------");
        //4.4查询student标签下带有id属性的name标签 并且id属性值为itcast

        nodes = document.selectNodes("//student/name[@id='itcast']");
        for (Node node : nodes) {
            System.out.println(node);
        }
    }
}

案例二
student.xml

<?xml version="1.0" encoding="UTF-8" ?>
<students>
    <student number="heima_001">v
        <name>
            <xing>张</xing>
            <ming>三</ming>
        </name>
        <age>30</age>
        <gender>男</gender>
    </student>


    <student number="heima_002">
        <name id="itcast2">a
            <xing>李</xing>
            <ming>四</ming>
        </name>
        <age>20</age>
        <gender>女</gender>
    </student>
</students>

解析文件

import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.Node;
import org.dom4j.io.SAXReader;

/**
 *  xpath: 快速定位查找
 *  在DOM对象中,快速找到想要的元素
 *
 *  xpath工具方法
 *     List<Node>selectNodes("xpath查找表达式") 获取多个节点
 *     Node selectSingleNode(xpath查找表达式) 获取一个节点
 *
 *     标签对象接口Element继承Node
 *
 *     搜狗智慧拼音输入法
 *     QQ拼音输入法
 */
public class XPathReadXml{
    public static void main(String[] args) throws Exception{
        SAXReader sax = new SAXReader();
        Document document = sax.read("xml/xml/student.xml");

        //AAA//BBB//CCC
        Element element =(Element) document.selectSingleNode("//students//student//name//xing");
        System.out.println(element.getText());

        //BBB
        element = (Element)document.selectSingleNode("//ming");
        System.out.println(element.getText());

        element = (Element)document.selectSingleNode("//students//student[last()]//ming[last()]");
        System.out.println(element.getText());

        element = (Element)document.selectSingleNode("//name[@id='itcast2']");
        System.out.println(element.getText());

    }
}