什么是约束?
在XML技术里,可以编写一个文档来约束一个XML文档的书写规范,这就是XML约束。约束定义了文档的结构,在某种程度上,也说明了如何在文档结构中放置数据。事实上,如果用XML作为数据的呈现,文档就无法与约束相脱离。
约束一般有两种:DTD和Schema,这里先介绍DTD。
DTD简介
DTD(Document Type Definition),全称为文本类型定义,用于定义合法的XML文档构建模块。
先写一个简单的关于书本信息的XML文档:
三体
刘慈欣
23.8
龙族
江南
19.6
DTD元素声明
在DTD中,XML中的元素要通过元素声明来声明,语法为:
或:
下面是四种不同的元素:
空元素:语法为:
例如一个元素为
(也可以写成),则在DTD中它的声明为。带有子元素的元素:语法为:
或:
以上面的XML文档为例,在DTD中,book元素的声明应为。需要注意的是,当元素拥有多个子元素时,这些子元素必须按照由逗号分隔开的序列进行声明并且按照相同的顺序出现在XML文档中。
内容为文本类型的元素:语法为:
例如,name元素的声明应为。
带有任何内容的元素:语法为:
此外,对于不同的元素内容,DTD也规定了不同的元素声明(这里的元素内容是针对子元素来说的,而声明都是对父元素的声明):
子元素只出现一次:语法为:
例如,如果想要声明book元素,则应为。需要注意的是,这里的name必须是book元素的唯一子元素,而且只能出现一次。当然如果子元素有多个且都仅出现一次,就要写成。
子元素出现零次或一次:语法为:
子元素出现零次或多次:语法为:
子元素出现一次或多次:语法为:
子元素为多选一类型:语法为:
例如,book的子元素有三种可能,即name、author以及price,这时声明应为,即各个子元素之间用竖线隔开。这里则不需要遵循子元素出现的顺序来写声明,只需包含所有可能出现的子元素即可(也可以添加一些不可能出现的元素,当然这样写并没有必要)。
多种类型的子元素混合:举个例子:
这个声明的含义为:book元素包含只出现一次的name子元素、出现零次或一次的author子元素以及出现零次或多次的price、press、date三个子元素中的一个。
PS:对于?、*以及+这三个符号的含义,可以类比于正则表达式进行记忆。
DTD属性声明
介绍完了元素声明,下面介绍属性声明。最基本的语法为:
下面是W3C对于属性类型和默认值的规定:
属性类型与默认值
举个例子,如果一个DTD对于元素和属性的声明为:
则一个正确XML实例应为,frame为含有CDATA类型的height属性和CDATA类型的width属性的空元素。如果height和 width没有被设定,则100和80分别是它们的默认值 。
#REQUIRED和#IMPLIED这两者是相对的,在没有默认值的情况下,前者强制作者为元素添加属性,而后者则不作要求。
#FIXED "value"则固定了属性的值,并不允许被更改。例如,表明frame元素的width属性被强制设置成150。
以上文的XML文档为例,对于book元素,为了避免混淆,使元素含有id属性,用数字来区分每一本书,并且这个属性是不可少的,因此需要属性声明为。
此外,如果属性的值可能出现多种情况,类似于上面介绍过的属性声明,用竖线隔开各个可能的值:
DTD实体
前面的元素和属性都是XML中有的概念,大家就比较熟悉,可实体是个新概念,它是什么呢?实体是用于定义引用普通文本或特殊字符的快捷方式的变量。简单地说,实体就是能代表一段字符,只要预先设置好实体代表哪段字符,就可以在文档中直接引用这个实体而不用输入这段字符了,类似于C语言中宏定义的常量。因此,说到实体就要介绍实体声明和实体引用。
实体声明
语法为:
实体引用
语法为:
&实体名称;
需要注意的是,实体声明中实体的值应被引号(单引号或双引号)包围,而实体引用应包含开头的&和结尾的;。
例如,向上面的XML文档中的book元素添加子元素press以代表书的出版社,由于两本书都由人民教育出版社出版,则可以引用实体。先对实体进行声明,再引用实体&PRESS;。
DTD的三种关联方式
说了这么多,DTD既然是用来约束XML文档的,那么它应该如何与XML文档关联起来呢?一般有三种关联方式:
使用内部DTD
语法为:
声明]>
这里的声明包括元素声明、属性声明和实体声明:
...
...
...
]>
对于上文的XML文档,使用内部DTD时的文档应为:
]>
三体
刘慈欣
23.8
龙族
江南
19.6
使用外部DTD
当使用外部DTD时,此时的DTD是作为一个后缀名为.dtd的文件单独存在,且文件存在于本地,在写XML文档时进行声明:
如果DTD文件与XML文档在同 一目录下,DTD文件的URL则为DTD文件名。
DTD文件也具有一定的格式:
...
...
...
这里第一行是XML的文档声明,后面则是元素声明、属性声明和实体声明。
使用公共DTD
还有一种方式是使用网络上的DTD文件,方法和使用外部DTD类似,在XML文档中也要进行声明:
称" "DTD文件的URL">
参考资料