XML概述
定义
- XML(eXtensible Markup Language,可扩展标记语言),也是一种标记语言,类似HTML,但是其一般用于描述数据,而非显示数据。
- XML没有预定义标签,需要用户自行定义标签。
- XML技术是W3C组织(World Wide Web Consortium万维网联盟)发布的,目前遵循的是W3C组织于2000年发布的XML1.0规范。
作用
- XML是一种通用的数据交换格式,能够方便的封装带有层级关系的数据。
- 在XML语言中,它允许用户自定义标签。一个标签用于描述一段数据;一个标签可分为开始标签和结束标签,在起始标签之间,又可以使用其它标签描述其它数据,以此来实现数据关系的描述。
- XML在企业开发中,经常用XML作为配置文件。
XML语法
XML文档的组成
文档声明:<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
- 文档声明必须在XML文档的第一行。
- version:版本。encoding:编码,默认utf-8。standalone:文档是否独立(是否依赖约束文档)。
注释:<!--注释-->
元素:
- 包含标签主体:<mytag>some content</mytag>
- 不含标签主体:<mytag />
- 所有标签不允许有交叉嵌套。
- 一个XML文档必须有且仅有一个根标签,其他标签都是这个根标签的子标签或孙标签。
- XML中不会忽略主体内容中出现的空格和换行,即存在暗部。
- 命名规则:元素(标签)的名称可以包含字母、数字、减号、下划线和英文句点,但是一般遵循以下规则:
严格区分大小写:<P>、<p>。只能以字母或下划线开头:abc、_abc。不能以xml(或XML、Xml等)开头。名称字符之间不能有空格或制表符。名称字符之间不能使用冒号。
元素的属性:
- 一个元素可以有多个属性,每个属性都有它自己的名称和取值:<mytag name="value" />
- 属性值一定要用引号(单引号或双引号)引起来。
- 属性名称的命名规范与元素的命名规范相同。
- 元素中的属性是不允许重复的。
- 在XML技术中,标签属性所代表的信息也可以被改成用子元素的形式来描述。
CDATA区
- CDATA(Character Data),作用为将标签当做普通文本内容。
- 语法:<![CDATA[内容]]>
特殊字符
- &:&
- <:<
- >:>
- ":"
- ':'
处理指令(PI,Processing Instruction)
- 用来指挥软件如何解析XML文档。
- 必须以“<?”作为开头,以“?>”作为结尾。
XML约束
- XML技术中,可以编写一个文档来约束一个XML的书写规范,这个文档称之为约束。
- 约束文档定义了在XML中允许出现的元素名称、属性及元素出现的顺序等等。
- 格式良好的XML:遵循XML语法的XML。
有效的XML:遵循约束文档的XML。 - 常用的约束技术:
XML DTD
XML Schema
XDR
SOX
XML约束之DTD
概述
DTD(文档类型定义,Document Type Definition):用于定义XML的书写规范。
验证
根据能否对XML文档进行约束模式校验,可以将解析器分为两类:
- 非校验解析器,仅验证XML语法,无法验证XML约束,如IE
- 校验解析器
定义DTD的方式
DTD约束文档可以在XML文档中直接定义,也可以作为单独的文档进行编写(单独的文档必须以UTF-8编码进行保存)。
方式1
在文档中直接定义DTD:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<!DOCTYPE 书架 [
<!ELEMENT 书架 (书+)>
<!ELEMENT 书 (书名,作者,售价)>
<!ELEMENT 书名 (#PCDATA)>
<!ELEMENT 作者 (#PCDATA)>
<!ELEMENT 售价 (#PCDATA)>
]>
<书架>
<书>
<书名>Think in Java</书名>
<作者>埃克尔</作者>
<售价>108.00元</售价>
</书>
...
</书架>
方式2
XML文档中引入外部约束,DTD约束文件扩展名为“.dtd”:
- <!DOCTYPE 根元素 SYSTEM "DTD文档路径">
- <!DOCTYPE 根元素 PUBLIC "DTD名称" "DTD文档的URL">
DTD语法
元素
DTD文档中使用ELEMENT关键字来声明一个XML元素:<!ELEMENT 元素名称 使用规则>
其中使用规则如下:
- (#PCDATA):指示元素的主体内容只能是普通的文本(Parsed Character Data)。
- EMPTY:用于指示元素的主体为空,比如<br />。
- ANY:用于指示元素的主体内容为任意类型。
- (子元素):指示元素中包含的子元素。
子元素的规则如下:
- 如果子元素用逗号分开,说明必须按照声明顺序去编写XML文档。
如:<!ELEMENT FILE (TITLE, AUTHOR, EMAIL) - 如果子元素用“|”分开,说明任选其一。
如:<!ELEMENT FILE (TITLE|AUTHOR|EMAIL) - 用+、*、?来表示元素出现的次数,如果元素后面没有+*?:表示必须且只能出现一次
+:表示一次或多次。
*:表示零次、一次或多次。
?:表示零次或一次。
如<!ELEMENT MYFILE ((TITLE*, AUTHOR?, EMAIL)* | COMMENT)>
属性
DTD文档中使用ATTLIST关键字来为一个元素声明属性:
如:
<!ATTLIST 元素名
属性名1 属性值类型 设置说明
属性名2 属性值类型 设置说明
…
>
属性值类型:
- CDATA:表示属性的取值为普通的文本字符串。
- ENUMERATED(DTD没有此关键字):表示枚举,只能从枚举列表中任选其一,如(鸡肉|牛肉|猪肉|鱼肉)。
- ID:表示属性的取值不能重复。
设置说明:
- #REQUIRED:表示该属性必须出现。
- #IMPLIED:表示该属性可有可无。
- #FIXED:表示属性的取值为一个固定值。语法:#FIXED "固定值"。
- 直接值:表示属性的取值为该默认值。
示例
<?xml version = "1.0" encoding="GB2312" ?>
<!DOCTYPE 联系人列表[
<!ELEMENT 联系人列表 ANY>
<!ELEMENT 联系人(姓名,EMAIL)>
<!ELEMENT 姓名(#PCDATA)>
<!ELEMENT EMAIL(#PCDATA)>
<!ATTLIST 联系人 编号 ID #REQUIRED>
]>
<联系人列表>
<联系人 编号=“a">
<姓名>张三</姓名>
<EMAIL>zhang@it315.org</EMAIL>
</联系人>
<联系人 编号=“b">
<姓名>李四</姓名>
<EMAIL>li@it315.org</EMAIL>
</联系人>
</联系人列表>
实体
概述
- 定义实体就是为一段内容指定一个名称,使用时通过这个名称就可以引用其所代表的内容。
- 在DTD文档中使用ENTITY关键字来声明一个实体。
- 实体可分为:引用实体和参数实体,两者的语法不同
引用实体
在DTD中定义,在XML中使用。
语法:
DTD:<!ENTITY 实体名称 "实体内容">
XML:&实体名称;
参数实体
在DTD中定义,在DTD中使用。
语法:
DTD:<!ENTITY %实体名称 "实体内容">
DTD:%实体名称;
XML约束之Schema
概述
XML Schema 也是一种用于定义和描述 XML 文档结构与内容的模式语言,其出现是为了克服 DTD 的局限性。
- XML Schema符合XML语法结构。
- DOM、SAX等XML API很容易解析出XML Schema文档中的内容。
- XML Schema对名称空间支持得非常好。
- XML Schema比XML DTD支持更多的数据类型,并支持用户自定义新的数据类型。
- XML Schema定义约束的能力非常强大,可以对XML实例文档作出细致的语义限制。
- XML Schema不能像DTD一样定义实体,比DTD更复杂,但Xml Schema现在已是W3C组织的标准,它正逐步取代DTD。
特点
- XML Schema 文件自身就是一个XML文件,但它的扩展名通常为.xsd。
- 一个XML Schema文档通常称之为模式文档(约束文档),遵循这个文档书写的xml文件称之为实例文档。
- 和XML文件一样,一个XML Schema文档也必须有一个根结点,但这个根结点的名称为schema。
- 编写了一个XML Schema约束文档后,通常需要把这个文件中声明的元素绑定到一个URI地址上,在XML Schema技术中有一个专业术语来描述这个过程,即把XML Schema文档声明的元素绑定到一个名称空间上,以后XML文件就可以通过这个URI(即名称空间)来告诉解析引擎,xml文档中编写的元素来自哪里,被谁约束。
名称空间
- 在XML Schema中,每个约束模式文档都可以被赋以一个唯一的名称空间,名称空间用一个唯一的URI(统一资源标识符,Uniform Resource Identifier)表示。 在Xml文件中书写标签时,可以通过名称空间声明(xmlns),来声明当前编写的标签来自哪个Schema约束文档。
- 名称空间的名字语法容易让人混淆,尽管以 http:// 开头,但是这个 URL 并不指向一个包含模式定义的文件。事实上,这个 URL 根本没有指向任何文件,只是一个分配的名字罢了。
Schema约束的引用
1. XML Schema文档中声明名称空间
- targetNamespace元素用于指定schema文档中声明的元素属于哪个名称空间。
- elementFormDefault元素用于指定,该schema文档中声明的根元素及其所有子元素都属于targetNamespace所指定的名称空间。
示例
<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
<!-- 引入标准名称空间,以便使用各种关键字;xs:别名,不冲突的情况下可以省略 -->
targetNamespace="http://www.it.com"<!-- 定义该Schema文件的名称空间 -->
elementFormDefault="qualified">
......
</xs:schema>
2. 使用名称空间引入Schema
- 为了在一个XML文档中声明它所遵循的Schema文件的具体位置,通常需要在Xml文档中的根结点中使用 schemaLocation 属性来指定。
- schemaLocation 属性有两个值:第一个值是需要使用的命名空间,第二个值是供命名空间使用的 XML schema 的位置,两者之间用空格分隔。
- 在使用 schemaLocation 属性时,也需要指定该属性来自哪个名称空间("http://www.w3.org/2001/XMLSchema-instance")。
示例
<?xml version="1.0" encoding="UTF-8"?>
<it:书架 xmlns:it="http://www.it.com"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.it.com books.xsd">
<it:书>
<it:书名>Think in Java</it:书名>
<it:作者>杨旗</it:作者>
<it:售价>90</it:售价>
</it:书>
</it:书架>
3. 使用默认名称空间引入Schema
示例
<书架 xmlns="http://www.it315.org/xmlbook/schema"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.it315.org/xmlbook/schema book.xsd">
<书>
<书名>Think in Java</书名>
<作者>埃克尔</作者>
<售价>108.00元</售价>
</书>
<书架>
4. 使用名称空间引入多个Schema约束
<?xml version="1.0" encoding="UTF-8"?>
<书架 xmlns="http://www.it1.com"
xmlns:demo="http://www.it2.com"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.it1.com xmlbook.xsd http://www.it2.com demo.xsd">
<书>
<书名>Think in Java</书名>
<作者>埃克尔</作者>
<售价>108.00元</售价>
</书>
</书架>
5. 不使用名称空间引入Schema
- 使用 noNamespaceSchemaLocation 属性指定Schema约束文件。
示例
<?xml version="1.0" encoding="UTF-8"?>
<书架 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="xmlbook.xsd">
<书>
<书名>Think in Java</书名>
<作者>埃克尔</作者>
<售价>108.00元</售价>
</书>
</书架>
Schema语法
示例:
<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
<!-- 引入标准名称空间,以便使用各种关键字;xs:别名,不冲突的情况下可以省略 -->
targetNamespace="http://www.itheima.com"<!-- 定义该Schema文件的名称空间 -->
elementFormDefault="qualified">
<xs:element name='书架' ><!-- 是根元素,元素名称:书架 -->
<xs:complexType><!-- 复杂类型(有子元素) -->
<xs:sequence maxOccurs="unbounded"><!-- 有序的,最大出现次数:无限制 -->
<xs:element name="书"><!-- 元素名称是:书 -->
<xs:complexType><!-- 复杂类型 -->
<xs:sequence><!-- 有序的 -->
<xs:element name="书名" type="xs:string" /><!-- 元素名称和类型 -->
<xs:element name="作者" type="xs:string" />
<xs:element name="售价" type="xs:string" />
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:schema>