浅谈XML

最新推荐文章于 2024-07-28 17:49:02 发布

有何不可有

最新推荐文章于 2024-07-28 17:49:02 发布

阅读量686

点赞数

分类专栏： Java Web

本文链接：https://blog.csdn.net/qq_43542011/article/details/119008080

版权

Java Web 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.DTD约束（Document Type Definition）：

一、简介：

XML全称：EXtensible Markup Language（可扩展标记语言）。
编写XML就是编写标签，与HTML非常相似。
扩展名是：.xml
具有良好的人机可读性。

二、XML和HTML比较：

XML与HTML非常相似，都是编写标签。
XML没有预定义标签，而HTML存在大量预定义标签。
XML重在保存和传输数据，HTML用于显示信息。

三、XML的用途：

是Java的配置描述文件。
用于保存程序产生的数据。
用于网络间的数据传输。

四、XML的文档结构：

1.第一行必须是XML声明：XML声明用于说明XML文档的基本信息，包括版本号和字符集。

如：

<?xml version="1.0" encoding="UTF-8"?>

version代表版本号（1.0或1.1），encoding="UTF-8"设置字符集，用于支持中文。

2.有且只有1个根节点。

3.XML标签的书写规则和HTML相同：

①合法的标签名：

标签名要有意义
建议使用英文，小写字母，单词间用"-"分割。
建议使用多级标签时不要存在重名情况。

②适当的注释与缩进。

③合理使用属性：

标签属性用于描述标签不可或缺的情况。
对标签分组或为标签设置id时常用属性表示。

④处理特殊字符：

标签体中出现"<"，">"特殊字符会破坏文档结构（误认为是标签的开始或结束符）。
解决：

法A：使用实体引用：直接替换

XML的5种实体引用
实体引用	对应符号	说明
<	<	小于
>	>	大于
&	&	与
'	'	单引号
&quot	"	双引号

法B：使用CDATA标签：

CDATA指不应该由XML解析器来解析的文本数据。
从"<![CDATA["开始，到"]]>"结束，被括住的内容不会被解析，而是原样输出。

例：

<?xml version="1.0" encoding="UTF-8"?>
<lesson>
  <content>
      今天学习HTML的a标签
  <body>
    <a href="b.index">返回</a>
  </body>
  </content>
</lesson>

使用CDATA标签后：

<?xml version="1.0" encoding="UTF-8"?>
<lesson>
  <content>
  <![CDATA[
      今天学习HTML的a标签
  <body>
    <a href="b.index">返回</a>
  </body>
  ]]>
  </content>
</lesson>

⑤有序的子元素：在XML多层嵌套的子元素中，标签前后顺序应保持一致。

4.XML中所有标签和属性都可以自定义。

例：

<?xml version="1.0" encoding="UTF-8"?>
<!-- 人力资源管理系统 -->
<hr>
  <employee id="001">
    <name>张三</name>
    <age>25</age>
    <salary>4000</salary>
    <department>
      <dname>客服部</dname>
      <address>xx写字楼—A807</address>
    </department>
  </employee>
    <employee id="002">
    <name>李四</name>
    <age>31</age>
    <salary>4000</salary>
    <department>
      <dname>销售部</dname>
      <address>xx写字楼—A807</address>
    </department>
  </employee>
</hr>

可以把XML文件拖进浏览器里进行校验，以火狐为例显示如下：

五、XML语义约束：

XML文档结构正确，但可能不是有效的。（如员工档案中绝不允许出现“植物品种”标签。）
XML语义约束就是用于规定XML文档中允许出现哪些元素。
XML语义约束有2种定义方式：DTD和XML Schema。

1.DTD约束（Document Type Definition）：

DTD是一种简单易用的语义约束方式。
DTD文件的扩展名是：.dtd 。
使用<!ELEMENT>标签可以定义XML文档中允许出现的节点和数量。

如：

<!ELEMENTS hr (employee)>  <!--定义hr节点下只允许出现1个employee子节点-->

<!ELEMENT employee (name,age,salary,department)>  <!--定义emplyee节点下必须包含以下4个节点，且按顺序出现-->

<!ELEMENT name (#PCDATA)>  <!--定义name标签体只能是文本，#PCDATA表示文本元素-->

若某子节点需要多次重复出现，则需要在子节点后增加相应的描述符。

<!ELEMENT hr (employee+)>  <!--hr节点下最少出现1个employee子节点-->

<!ELEMENT hr (employee*)>  <!--hr节点下可出现0———n个employee子节点-->

<!ELEMENT hr (employee?)>  <!--hr节点下最多出现1个employee子节点-->

在XML中用<!DOCTYPE>标签来引用DTD文件。

书写格式：<!DOCTYPE 根节点 SYSTEM "dtd文件路径">

示例：<!DOCTYPE hr SYSTEM "hr.dtd">

使用<ATTLIST>标签说明在节点中有哪些属性。

例：

hr.xml:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE hr SYSTEM "hr.dtd">  <!-- 引用DTD -->
<!-- 人力资源管理系统 -->
<hr>
	<employee id="001">
		<name>张三</name>
		<age>25</age>
		<salary>4000</salary>
		<department>
			<dname>客服部</dname>
			<address>xx写字楼—A807</address>
		</department>
	</employee>
	<employee id="002">
		<name>李四</name>
		<age>31</age>
		<salary>4000</salary>
		<department>
			<dname>销售部</dname>
			<address>xx写字楼—A807</address>
		</department>
	</employee>
</hr>

hr.dtd:

<?xml version="1.0" encoding="UTF-8"?>
<!ELEMENT hr (employee+)>
<!ELEMENT employee (name,age,salary,department)>
<!ATTLIST employee id CDATA ""> <!-- <!ATTLIST 标签名称 属性名称  节点类型  默认值> -->
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT salary (#PCDATA)> 
<!ELEMENT department (dname,address)>
<!ELEMENT dname (#PCDATA)>
<!ELEMENT address (#PCDATA)>

注意编写DTD文件时，父节点后面一定要有空格，不能紧跟括号，否则DTD文件不会生效。

2.XML Schema约束：

XML Schema比DTD更复杂更严谨，功能更强大。
XML Schema提供了数据类型、格式限定、数据范围等特性。
XML Schema是W3C标准。
XML Schema文件的扩展名是：.xsd 。

例：

hr-schema.xml：

<?xml version="1.0" encoding="UTF-8"?>
<!-- 人力资源管理系统 -->
<hr xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:noNamespaceSchemaLocation="hr.xsd">  <!-- 引用XML Sechema文件 -->
	<employee id="001">
		<name>张三</name>
		<age>25</age>
		<salary>4000</salary>
		<department>
			<dname>客服部</dname>
			<address>xx写字楼—A807</address>
		</department>
	</employee>
	<employee id="002">
		<name>李四</name>
		<age>31</age>
		<salary>4000</salary>
		<department>
			<dname>销售部</dname>
			<address>xx写字楼—A807</address>
		</department>
	</employee>
</hr>

hr.xsd：

<?xml version="1.0" encoding="UTF-8"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema">
	<element name="hr">
		<!-- complexType标签含义是复杂节点，包含子节点时必须使用这个标签 -->
		<complexType>
			<sequence>
				<!--sequence标签表示其内的内容是顺序的 -->
				<element name="employee" minOccurs="1" maxOccurs="100">  <!-- 表示该节点最少出现1次，最多出现100次。非常灵活，根据需要自由设置 -->
					<complexType>
						<sequence>
							<element name="name" type="string"></element>  <!--string表示name的输入只能是字符串，不能有子节点 -->
							<element name="age">  <!-- 只能是整型 -->
							  <simpleType>  <!-- 表示简单类型（可进行详细数据范围设置） -->
									<restriction base="integer">  <!-- 进行整数方面的限制 -->
										<minInclusive value="18"></minInclusive>  <!-- 最小 -->
										<maxInclusive value="60"></maxInclusive>  <!-- 最大 -->
									</restriction>
								</simpleType>
							</element>
							<element name="salary" type="integer"></element>
							<element name="department">
								<complexType>
									<sequence>
										<element name="dname" type="string"></element>
										<element name="address" type="string"></element>
									</sequence>
								</complexType>
							</element>
						</sequence>
						<attribute name="id" type="string" use="required"></attribute> <!-- 表示id属性在任何employee标签下必须存在 -->
					</complexType>
				</element>
			</sequence>
		</complexType>
	</element>
</schema>

六、DOM文档对象模型：

1.简介：

DOM（Document Object Model）定义了访问和操作XML文档的标准方法，DOM把XML文档作为树结构来查看，能够通过DOM树来读写所有元素。

例：

<?xml version="1.0" encoding="UTF-8"?>
<cart>
  <item sn="711">
    <name>空调</name>
    <price>2000.0</price>
  </item>  
  <item sn="890">
    <name>面包</name>
    <price>10.0</price>
  </item> 
</cart>

2.Dom4j：

Dom4j是一个易用的、开源的库，用于解析XML。它应用于Java平台，具有性能优异、功能强大、极易使用的特点。
Dom4j将XML视为Document对象。
XML标签被Dom4j定义为Element对象（即元素）。

下载直接搜Dom4j（结构第一个就是），或者直接点https://dom4j.github.io/

例：
hr.xml：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE hr SYSTEM "hr.dtd"><!-- 人力资源管理系统 -->
<hr>
	<employee no="3301">
		<name>李铁柱</name>
		<age>37</age>
		<salary>3600</salary>
		<department>
			<dname>人事部</dname>
			<address>XX大厦-B105</address>
		</department>
	</employee>
	<employee no="3302">
		<name>林海</name>
		<age>50</age>
		<salary>7000</salary>
		<department>
			<dname>财务部</dname>
			<address>XX大厦-B106</address>
		</department>
	</employee>
</hr>

HrReader.java：对xml文件进行读操作

package com.imooc.dom4j;

import java.util.List;

import org.dom4j.Attribute;
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;

public class HrReader {
	public void readXml(){
		String file = "D:/java web/xml/src/hr.xml";
		//SAXReader类是读取XML文件的核心类，用于将XML解析后以“树”的形式保存在内存中。
		SAXReader reader = new SAXReader();
		try {
			Document document = reader.read(file);
			//获取XML文档的根节点，即hr标签
			Element root = document.getRootElement();
			//elements方法用于获取指定的标签集合
			List<Element> employees =  root.elements("employee");
			for(Element employee : employees){
				//element方法用于获取唯一的子节点对象
				Element name = employee.element("name");
				String empName = name.getText();//getText()方法用于获取标签文本
				System.out.println(empName);
				
				System.out.println(employee.elementText("age"));  //一句相当于上面的3句，简单版
				System.out.println(employee.elementText("salary"));
				Element department = employee.element("department");
				System.out.println(department.element("dname").getText());
				System.out.println(department.element("address").getText());
				Attribute att = employee.attribute("no");  //获得属性值
				System.out.println(att.getText());
			}
		} catch (DocumentException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	public static void main(String[] args) {
		HrReader reader = new HrReader();
		reader.readXml();
	}
	
}

HrWriter.java：对xml文件进行写操作

package com.imooc.dom4j;

import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;

import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;

public class HrWriter {
	public void writeXml() {
		String file = "D:/java web/xml/src/hr.xml";
		SAXReader reader = new SAXReader();

		try {
			Document document = reader.read(file);
			Element root = document.getRootElement();
			Element employee = root.addElement("employee");
			employee.addAttribute("no", "3311"); // 创建属性
			Element name = employee.addElement("name");
			name.setText("李铁柱"); // 设置文本内容
			employee.addElement("age").setText("37");
			employee.addElement("salary").setText("3600");
			Element department = employee.addElement("department");
			department.addElement("dname").setText("人事部");
			department.addElement("address").setText("XX大厦-B105");
			Writer writer = new OutputStreamWriter(new FileOutputStream(file), "UTF-8");
			document.write(writer); // 将DOM模型写入对应文件
			writer.close(); // 关闭流
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

	public static void main(String[] args) {
		HrWriter hrWriter = new HrWriter();
		hrWriter.writeXml();
	}
}

xml文件末尾出现要更新的内容：

注意要导入Jaxen的jar包。

七、XPath路径表达式：

XPath路径表达式是XML文档中查找数据的语言。
掌握XPath可大大提高数据时的开发效率。

学习XPath本质就是掌握各种形式表达式的使用技巧。

XPath常用的基本表达式
表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点中选择文档的节点，而不考虑它们的位置
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

举例：

表达式	描述
bookstore	选取此节点的所有子节点
/bookstore	选取根元素bookstore （注意：若路径起始于正斜杠/，则此路径始终代表到某元素的绝对路径）
bookstore/book	选取属于bookstore的子元素的所有book元素
//book	选取所有book子元素，而不管它们在文档在中的位置
bookstore//book	选取属于bookstore元素的后代的所有book元素，而不管它们位于bookstore之下的什么位置
//@lang	选取名为lang的所有属性

XPath谓语表达式举例
表达式	描述
/ bookstore /book [1]	选取属于bookstore子元素的第一个book元素
/ bookstore /book [ last () ]	选取属于bookstore子元素的最后一个book元素
/ bookstore / book [ last () -1 ]	选取属于bookstore子元素的倒数第二个book元素
/bookstore/book[position()<3]	选取最前面的2个属于bookstore元素的子元素的book元素
//title[@lang]	选取所有名为 lang 的属性的 title 元素
//title[@lang='eng']	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的price 元素的值须大于35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的price 元素的值须大于35.00。

例：
hr.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE hr SYSTEM "hr.dtd">
<!-- 人力资源管理系统 -->
<hr>
	<employee no="3301">
		<name>李铁柱</name>
		<age>37</age>
		<salary>3600</salary>
		<department>
			<dname>人事部</dname>
			<address>XX大厦-B105</address>
		</department>
	</employee>
	<employee no="3302">
		<name>林海</name>
		<age>50</age>
		<salary>7000</salary>
		<department>
			<dname>财务部</dname>
			<address>XX大厦-B106</address>
		</department>
	</employee>
	<employee no="3303">
		<name>安娜</name>
		<age>24</age>
		<salary>4600</salary>
		<department>
			<dname>人事部</dname>
			<address>XX大厦-B105</address>
		</department>
	</employee>
	<employee no="3304">
		<name>张晓宇</name>
		<age>29</age>
		<salary>3000</salary>
		<department>
			<dname>后勤部</dname>
			<address>XX大厦-B108</address>
		</department>
	</employee>

	<employee no="3305">
		<name>赵子轩</name>
		<age>19</age>
		<salary>1500</salary>
		<department>
			<dname>后勤部</dname>
			<address>XX大厦-B108</address>
		</department>
	</employee>

	<employee no="3306">
		<name>张晓璇</name>
		<age>20</age>
		<salary>1700</salary>
		<department>
			<dname>后勤部</dname>
			<address>XX大厦-B108</address>
		</department>
	</employee>
	<employee no="3307">
		<name>张檬</name>
		<age>43</age>
		<salary>8700</salary>
		<department>
			<dname>会计部</dname>
			<address>XX大厦-B103</address>
		</department>
	</employee>
	<employee no="3308">
		<name>李梅</name>
		<age>33</age>
		<salary>8700</salary>
		<department>
			<dname>工程部</dname>
			<address>XX大厦-B104</address>
		</department>
	</employee>
</hr>

XPathTestor.java

package com.imooc.dom4j;

import java.util.List;

import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.Node;
import org.dom4j.io.SAXReader;

public class XPathTestor {
	public void xpath(String xpathExp) {
		String file = "D:/java web/xml/src/hr.xml";
		SAXReader reader = new SAXReader(); // 读取文件
		try {
			Document document = reader.read(file);

			List<Node> nodes = document.selectNodes(xpathExp); // 执行XPath表达式,Node是节点Element和属性Attribute的父类
			for (Node node : nodes) {
				Element emp = (Element) node;
				System.out.println(emp.attributeValue("no")); // attributeValue()直接获取属性值
				System.out.println(emp.elementText("name"));
				System.out.println(emp.elementText("age"));
				System.out.println(emp.elementText("salary"));
				System.out.println("==============================");
			}

		} catch (DocumentException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

	public static void main(String[] args) {
		XPathTestor testor = new XPathTestor();
//		testor.xpath("/hr/employee");
//		testor.xpath("//employee");
//		testor.xpath("//employee[salary<4000]");
//		testor.xpath("//employee[name='李铁柱']");  //注意文本用单引号
//		testor.xpath("//employee[@no=3304]");
//		testor.xpath("//employee[1]");  //第一个出现的employee节点
//		testor.xpath("//employee[last()]");  //后去最后一个employee节点
		// testor.xpath("//employee[position()<3]"); //position()表示当前位置
		testor.xpath("//employee[3] | //employee[8]"); // 组合表达式：获取第3个和第8个
	}
}