[学习笔记]XML基础及约束

XML概述

定义

  • XML(eXtensible Markup Language,可扩展标记语言),也是一种标记语言,类似HTML,但是其一般用于描述数据,而非显示数据。
  • XML没有预定义标签,需要用户自行定义标签。
  • XML技术是W3C组织(World Wide Web Consortium万维网联盟)发布的,目前遵循的是W3C组织于2000年发布的XML1.0规范。

作用

  • XML是一种通用的数据交换格式,能够方便的封装带有层级关系的数据。
  • 在XML语言中,它允许用户自定义标签。一个标签用于描述一段数据;一个标签可分为开始标签和结束标签,在起始标签之间,又可以使用其它标签描述其它数据,以此来实现数据关系的描述。
  • XML在企业开发中,经常用XML作为配置文件。

XML语法

XML文档的组成

文档声明:<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
  • 文档声明必须在XML文档的第一行。
  • version:版本。encoding:编码,默认utf-8。standalone:文档是否独立(是否依赖约束文档)。

注释:<!--注释-->

元素:
  • 包含标签主体:<mytag>some content</mytag>
  • 不含标签主体:<mytag />
  • 所有标签不允许有交叉嵌套。
  • 一个XML文档必须有且仅有一个根标签,其他标签都是这个根标签的子标签或孙标签。
  • XML中不会忽略主体内容中出现的空格和换行,即存在暗部。
  • 命名规则:元素(标签)的名称可以包含字母、数字、减号、下划线和英文句点,但是一般遵循以下规则:
    严格区分大小写:<P>、<p>。
    只能以字母或下划线开头:abc、_abc。
    不能以xml(或XML、Xml等)开头。
    名称字符之间不能有空格或制表符。
    名称字符之间不能使用冒号。

元素的属性:
  • 一个元素可以有多个属性,每个属性都有它自己的名称和取值:<mytag name="value" />
  • 属性值一定要用引号(单引号或双引号)引起来。
  • 属性名称的命名规范与元素的命名规范相同。
  • 元素中的属性是不允许重复的。
  • 在XML技术中,标签属性所代表的信息也可以被改成用子元素的形式来描述。

CDATA区
  • CDATA(Character Data),作用为将标签当做普通文本内容。
  • 语法:<![CDATA[内容]]>

特殊字符
  • &:&amp;
  • <:&lt;
  • >:&gt;
  • ":&quot;
  • ':&apos;

处理指令(PI,Processing Instruction)
  • 用来指挥软件如何解析XML文档。
  • 必须以“<?”作为开头,以“?>”作为结尾。

XML约束

  • XML技术中,可以编写一个文档来约束一个XML的书写规范,这个文档称之为约束。
  • 约束文档定义了在XML中允许出现的元素名称、属性及元素出现的顺序等等。
  • 格式良好的XML:遵循XML语法的XML。
    有效的XML:遵循约束文档的XML。
  • 常用的约束技术:
    XML DTD
    XML Schema
    XDR
    SOX

XML约束之DTD

概述

DTD(文档类型定义,Document Type Definition):用于定义XML的书写规范。

验证

根据能否对XML文档进行约束模式校验,可以将解析器分为两类:
  • 非校验解析器,仅验证XML语法,无法验证XML约束,如IE
  • 校验解析器

定义DTD的方式

DTD约束文档可以在XML文档中直接定义,也可以作为单独的文档进行编写(单独的文档必须以UTF-8编码进行保存)。

方式1

在文档中直接定义DTD:
   
   
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<!DOCTYPE 书架 [
<!ELEMENT 书架 (书+)>
<!ELEMENT 书 (书名,作者,售价)>
<!ELEMENT 书名 (#PCDATA)>
<!ELEMENT 作者 (#PCDATA)>
<!ELEMENT 售价 (#PCDATA)>
]>
<书架>
<书>
<书名>Think in Java</书名>
<作者>埃克尔</作者>
<售价>108.00元</售价>
</书>
...
</书架>

方式2

XML文档中引入外部约束,DTD约束文件扩展名为“.dtd”:
  • <!DOCTYPE 根元素 SYSTEM "DTD文档路径">
  • <!DOCTYPE 根元素 PUBLIC "DTD名称" "DTD文档的URL">

DTD语法

元素

DTD文档中使用ELEMENT关键字来声明一个XML元素:<!ELEMENT 元素名称 使用规则>
其中使用规则如下:
  • (#PCDATA):指示元素的主体内容只能是普通的文本(Parsed Character Data)。
  • EMPTY:用于指示元素的主体为空,比如<br />。
  • ANY:用于指示元素的主体内容为任意类型。
  • (子元素):指示元素中包含的子元素。

子元素的规则如下:
  • 如果子元素用逗号分开,说明必须按照声明顺序去编写XML文档。
    如:<!ELEMENT FILE (TITLE, AUTHOR, EMAIL)
  • 如果子元素用“|”分开,说明任选其一。
    如:<!ELEMENT FILE (TITLE|AUTHOR|EMAIL)
  • 用+、*、?来表示元素出现的次数,如果元素后面没有+*?:表示必须且只能出现一次
    +:表示一次或多次。
    *:表示零次、一次或多次。
    ?:表示零次或一次。
    如<!ELEMENT MYFILE ((TITLE*, AUTHOR?, EMAIL)* | COMMENT)>

属性

DTD文档中使用ATTLIST关键字来为一个元素声明属性:
如:
   
   
<!ATTLIST 元素名
属性名1 属性值类型 设置说明
属性名2 属性值类型 设置说明
>

属性值类型:
  • CDATA:表示属性的取值为普通的文本字符串。
  • ENUMERATED(DTD没有此关键字):表示枚举,只能从枚举列表中任选其一,如(鸡肉|牛肉|猪肉|鱼肉)。
  • ID:表示属性的取值不能重复。

设置说明:
  • #REQUIRED:表示该属性必须出现。
  • #IMPLIED:表示该属性可有可无。
  • #FIXED:表示属性的取值为一个固定值。语法:#FIXED "固定值"。
  • 直接值:表示属性的取值为该默认值。

示例
   
   
<?xml version = "1.0" encoding="GB2312" ?>
 
<!DOCTYPE 联系人列表[
<!ELEMENT 联系人列表 ANY>
<!ELEMENT 联系人(姓名,EMAIL)>
<!ELEMENT 姓名(#PCDATA)>
<!ELEMENT EMAIL(#PCDATA)>
<!ATTLIST 联系人 编号 ID #REQUIRED>
]>
<联系人列表>
<联系人 编号=“a">
<姓名>张三</姓名>
<EMAIL>zhang@it315.org</EMAIL>
</联系人>
<联系人 编号=“b">
<姓名>李四</姓名>
<EMAIL>li@it315.org</EMAIL>
</联系人>
</联系人列表>

实体

概述
  • 定义实体就是为一段内容指定一个名称,使用时通过这个名称就可以引用其所代表的内容。
  • 在DTD文档中使用ENTITY关键字来声明一个实体。
  • 实体可分为:引用实体和参数实体,两者的语法不同

引用实体
在DTD中定义,在XML中使用。
语法:
DTD:<!ENTITY 实体名称 "实体内容">
XML:&实体名称;

参数实体
在DTD中定义,在DTD中使用。
语法:
DTD:<!ENTITY %实体名称 "实体内容">
DTD:%实体名称;

XML约束之Schema

概述

XML Schema 也是一种用于定义和描述 XML 文档结构与内容的模式语言,其出现是为了克服 DTD 的局限性。
  • XML Schema符合XML语法结构。
  • DOM、SAX等XML API很容易解析出XML Schema文档中的内容。
  • XML Schema对名称空间支持得非常好。
  • XML Schema比XML DTD支持更多的数据类型,并支持用户自定义新的数据类型。
  • XML Schema定义约束的能力非常强大,可以对XML实例文档作出细致的语义限制。
  • XML Schema不能像DTD一样定义实体,比DTD更复杂,但Xml Schema现在已是W3C组织的标准,它正逐步取代DTD。

特点

  • XML Schema 文件自身就是一个XML文件,但它的扩展名通常为.xsd。
  • 一个XML Schema文档通常称之为模式文档(约束文档),遵循这个文档书写的xml文件称之为实例文档
  • 和XML文件一样,一个XML Schema文档也必须有一个根结点,但这个根结点的名称为schema。
  • 编写了一个XML Schema约束文档后,通常需要把这个文件中声明的元素绑定到一个URI地址上,在XML Schema技术中有一个专业术语来描述这个过程,即把XML Schema文档声明的元素绑定到一个名称空间上,以后XML文件就可以通过这个URI(即名称空间)来告诉解析引擎,xml文档中编写的元素来自哪里,被谁约束。

名称空间

  • 在XML Schema中,每个约束模式文档都可以被赋以一个唯一的名称空间,名称空间用一个唯一的URI(统一资源标识符,Uniform Resource Identifier)表示。 在Xml文件中书写标签时,可以通过名称空间声明(xmlns),来声明当前编写的标签来自哪个Schema约束文档。
  • 名称空间的名字语法容易让人混淆,尽管以 http:// 开头,但是这个 URL 并不指向一个包含模式定义的文件。事实上,这个 URL 根本没有指向任何文件,只是一个分配的名字罢了。

Schema约束的引用

1. XML Schema文档中声明名称空间

  • targetNamespace元素用于指定schema文档中声明的元素属于哪个名称空间。
  • elementFormDefault元素用于指定,该schema文档中声明的根元素及其所有子元素都属于targetNamespace所指定的名称空间。

示例
    
    
<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
<!-- 引入标准名称空间,以便使用各种关键字;xs:别名,不冲突的情况下可以省略 -->
targetNamespace="http://www.it.com"<!-- 定义该Schema文件的名称空间 -->
elementFormDefault="qualified">
 
......
 
</xs:schema>

2. 使用名称空间引入Schema

  • 为了在一个XML文档中声明它所遵循的Schema文件的具体位置,通常需要在Xml文档中的根结点中使用 schemaLocation 属性来指定。
  • schemaLocation 属性有两个值:第一个值是需要使用的命名空间,第二个值是供命名空间使用的 XML schema 的位置,两者之间用空格分隔。
  • 在使用 schemaLocation 属性时,也需要指定该属性来自哪个名称空间("http://www.w3.org/2001/XMLSchema-instance")。

示例
   
   
<?xml version="1.0" encoding="UTF-8"?>
<it:书架 xmlns:it="http://www.it.com"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.it.com books.xsd">
<it:书>
<it:书名>Think in Java</it:书名>
<it:作者>杨旗</it:作者>
<it:售价>90</it:售价>
</it:书>
</it:书架>

3. 使用默认名称空间引入Schema

示例
   
   
<书架 xmlns="http://www.it315.org/xmlbook/schema"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.it315.org/xmlbook/schema book.xsd">
<书>
<书名>Think in Java</书名>
<作者>埃克尔</作者>
<售价>108.00元</售价>
</书>
<书架>

4. 使用名称空间引入多个Schema约束

   
   
<?xml version="1.0" encoding="UTF-8"?>
 
<书架 xmlns="http://www.it1.com"
xmlns:demo="http://www.it2.com"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.it1.com xmlbook.xsd http://www.it2.com demo.xsd">
<书>
<书名>Think in Java</书名>
<作者>埃克尔</作者>
<售价>108.00元</售价>
</书>
</书架>

5. 不使用名称空间引入Schema

  • 使用 noNamespaceSchemaLocation 属性指定Schema约束文件。

示例
   
   
<?xml version="1.0" encoding="UTF-8"?>
<书架 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="xmlbook.xsd">
<书>
<书名>Think in Java</书名>
<作者>埃克尔</作者>
<售价>108.00元</售价>
</书>
</书架>

Schema语法

示例:
   
   
<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
<!-- 引入标准名称空间,以便使用各种关键字;xs:别名,不冲突的情况下可以省略 -->
targetNamespace="http://www.itheima.com"<!-- 定义该Schema文件的名称空间 -->
elementFormDefault="qualified">
<xs:element name='书架' ><!-- 是根元素,元素名称:书架 -->
<xs:complexType><!-- 复杂类型(有子元素) -->
<xs:sequence maxOccurs="unbounded"><!-- 有序的,最大出现次数:无限制 -->
<xs:element name="书"><!-- 元素名称是:书 -->
<xs:complexType><!-- 复杂类型 -->
<xs:sequence><!-- 有序的 -->
<xs:element name="书名" type="xs:string" /><!-- 元素名称和类型 -->
<xs:element name="作者" type="xs:string" />
<xs:element name="售价" type="xs:string" />
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:schema>

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值