验证
为什么需要验证?
对XML文件施加额外的约束,以便交流。
一、DTD验证
文档类型定义(Document Type Definition)DTD定义了XML文档内容的结构,保证XML以一致的格式存储数据。精确的定义词汇表,对XML的内容施加约束。
符合DTD的规范XML文档称为有效的文档。由DTD定义的词汇表以及文档语法,XML解析器可以检查XML文档内容的有效性。
规范的XML文件不一定是有效的;有效的一定是规范的。
1、 DTD声明
1) DTD声明可以在单独的一个文件中
2) DTD声明可以内嵌在XML文件中
3) DTD声明可以一部分在单独的文件中,另一部分内嵌在XML文件中
2、 引入外部DTD文件
<!DOCTYPE data SYSTEM "Client.dtd">
Data:根节点名称
Client.dtd:dtd文件路径
3、 DTD四种标记声明
元素(ELEMENT)、属性(ATTLIST)、实体(ENTITY)、符号(NOTATION)
1) 元素(ELEMENT) XML元素类型声明
声明元素: <!ELEMENT elementName (contentModel)>
元素的内容通过内容模式来描述。
DTD 内容模式的种类有:
EMPTY 元素不能包含任何数据,但可以有属性(前提是必须声明其属性)。
不能有子元素。不能有文本数据(包括空白,换行符)。
DTD中定义: <!ELEMENT elementName EMPTY>
XML中:<elementName/>(推荐) 或者:<elementName></elementName>
(#PCDATA) 规定元素只包含已析的字符数据,而不包含任何类型的子元素的内容类型。
DTD中定义: <!ELEMENT student (#PCDATA)>
XML中合法内容: <student>watching TV</student>
(Elements) 元素由内容模式部件指定。
<!ELEMENT name (child particles) >
内容模式部件可以是下表列出的内容。
<!ELEMENT name (a,b)> 子元素a、b必须出现,且按照列表的顺序
<!ELEMENT name (a|b)> 选择;子元素a、b只能出现一个
<!ELEMENT name (a) > 子元素a只能且必须出现一次
<!ELEMENT name (a)+ > 子元素a出现一次或多次
<!ELEMENT name (a)* > 子元素a出现任意次(包括零次、一次及多次)
<!ELEMENT name (a)? > 子元素a出现一次或不出现
Mixed 混合模式:子元素中既可有文本数据又可有下级子元素。
<!ELEMENT rn (#PCDATA| an | en)*>“|”和“*”必须写。
上句表示在 rn 内,字符数据 或 en及an 可以出现任意多次,顺序不限。
优先写(#PCDATA) 如:(#PCDATA|name)* 正确 (name|#PCDATA)* 错误
ANY 元素可以包含任何类型的数据。子元素(必须在DTD中有定义) 和 文本数据(包括空白)。
DTD中定义: <!ELEMENT a ANY> <!ELEMENT b ANY>
XML中合法内容: <a>somngthing</a> 或者 <a/> 或者 <a><b>oo</b></a>
2) 属性(ATTLIST) 特定元素类型可设置的属性&属性的允许值声明
<!ATTLIST elementName
attributeName1 attributeType attributeDefault
.......
attributeNameN attributeType attributeDefault>
属性类型 (Attribute Type):
CDATA该属性只能包含字符数据(注意与CDATA段、PCDATA的区别)
NMTOKEN 是CDATA的子集,它的字符只能是字母,数字,句点,破折号,下划线或冒号。
NMTOKENS 类似NMTOKEN,但这个可以包含多个值,每个值之间用空格隔开。
ID 该属性的取值在同一文档内是唯一的。一个元素只能有一个ID类型的属性。
IDREF 类似指针,指向文档中其他地方声明的ID值。如果该属性取值和指向的ID值不匹配,则返回错误。
IDREFS 类似IDREF,但它可以具有由空格分隔开的多个引用。
ENTITY 该属性的值必须对应一个在文档内部声明的但还没有分析过的实体。
ENTITYS 类似ENTITY,但它可以包含由空格分隔开的多个实体。
NOTATION 该属性的值必须引用在文档中其他地方声明的某个注释的名称。
(enumerated) 类似枚举的变量,该属性必须匹配所列的值。各值用“|”分隔开。
如: (春|夏|秋|冬) 实际内容文档只能从中取一个。
属性特性 (Attribute Default) :
#REQUIRED 必须有且只能有一个属性。
#IMPLIED 可有可无。
#FIXED 在DTD中定义默认值,XML中可以不指定,指定则必须等于该默认值。
attribute-value 如果不指定则用DTD定义的默认值,指定则用指定的值。
<![CDATA[############ 属性(ATTLIST)的举例 ############## ]]>
例一(#REQUIRED)
DTD中: <!ELEMENT el (#PCDATA)> <!ATTLIST el at1 NMTOKENS #REQUIRED at2 CDATA #REQUIRED>
XML中,正确: <el at1 = "10 20" at2="10" >something</el>
XML中,错误: <el at="10">something</el> (没有写另一个#REQUIRED的属性 at2 )
例二(#IMPLIED,#FIXED)
DTD中: <!ELEMENT el (#PCDATA)> <!ATTLIST el at CDATA #FIXED "10" at2 CDATA #IMPLIED >
XML中,正确: <el at2="20" >something</el> (at有默认值"10",at2 可写可不写)
XML中,错误: <el at="11" >something</el>(at要么不写,要写只能写成跟默认值相同的)
例三(attribute-value)
DTD中:<!ELEMENT el (#PCDATA)> <!ATTLIST el at CDATA "10" at2 CDATA "20" >
XML中,正确: <el at="11" >something</el>
例四(enumerated + attribute-value)
DTD中:<!ELEMENT el (#PCDATA)> <!ATTLIST el at (10|20|30) "10">
XML中,正确: <el at="20">something</el> (at要么不写,默认值 10;要么在(10|20|30)中选一个写)
<![CDATA[############ 属性(ATTLIST)举例 完毕 ############## ]]>
3) 实体(ENTITY) 可重用的内容声明
在DTD中定义 <!ENTITY 实体标志 "实体内容">
在xml中引用自定义的实体,用 &实体标志; 代表实体内容。
4) 符号(NOTATION) 不要解析的外部内容的格式声明。
3、 内部实体:在xml文件里面写(少用)
外部实体:另外在xml同一文件夹下建立一个dtd文件(提倡)
<!--**************** 内外部的实体举例 ***************** -->
外部的:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!DOCTYPE root SYSTEM "goodsInfo.dtd"><!--用这句引用外部dtd-->
<root><goodsInfo>
<goodsName>goodsName</goodsName>
<goodsPrice>goodsPrice</goodsPrice>
</goodsInfo></root>
以下是名为"goodsInfo.dtd"文件
<!ELEMENT root (goodsInfo)>
<!ELEMENT goodsInfo (goodsName,goodsPrice)>
<!ELEMENT goodsName (#PCDATA)>
<!ELEMENT goodsPrice (#PCDATA)>
内部的:
<?xml version="1.0"?>
<!DOCTYPE root [
<!ELEMENT root(student)>
<!ELEMENT student (#PCDATA)>
<!ENTITY CCTV "中央电视台">
]> <!--把DTD文件写在体内-->
<root><student>
student watch &CCTV;<!--使用自定义实体 CCTV-->
</student></root>
详细来源:http://blog.csdn.net/gotohbu/article/details/4501845
二 Schema验证
一、概述
XML Schema用于描述XML文档结构的文件。另一种用于该用途的文件(技术)是DTD。XML Schema有时又称为XML Schema Definition,所以也会称为XSD。因此Schema文件是以xsd为后缀的。
下面详细的说明一下所谓的“定义XML文档结构结构”的意义。 定义可以出现在文档中的Element。 定义可以出现在文档中的Attribute。 定义哪些Element是子元素。 定义Element的顺序。 定义子元素的数目。 定义一个元素是否能为空,是否能包含文本。 为每个Element和Attribute定义数据类型。 为Element和Attribute定义默认值和固定值。 因为有了以上的定义,我们才能更清晰的使用XML描述我们要表达的内容。使XML的接受方能更容易明白内容的含义。
二、在XML文档中引用Schema
<?xml version=/"1.0/"?>
<note
xmlns=/"http://www.w3schools.com/"
xmlns:xsi=/"http://www.w3.org/2001/XMLSchema-instance/"
xsi:schemaLocation=/"http://www.w3schools.com note.xsd/">
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!</body>
</note>
以上的XML文件引用了note.xsd的Schema文件进行结构定义,这样Parser会根据该Schema文件对XML进行有效性检验。显然关键的地方是文档根元素“note”中属性的定义。下面解析相关属性的意义。
xmlns=/"http://www.w3schools.com/"说明文档的默认命名空间是“http://www.w3schools.com”。关于命名空间的作用,在XML学习笔记(三)中有介绍。
xmlns:xsi=/"http://www.w3.org/2001/XMLSchema-instance/"这里定义一个Schema的实例命名空间。只有作了这个定义才能使用schemaLocation属性。xsi是XML Schema Instance的意思。
xsi:schemaLocation=/"http://www.w3schools.com note.xsd/"如上所述,因为我们已经定义了xsi命名空间所以可以使用schemaLocation属性了。schemaLocation属性由成对的值组成可以有多对。(因为一个XML文档可以有多个命名空间,所以schemaLocation值可以有多对)第一个值“http://www.w3schools.com”是要使用schema进行有效验证的命名空间的元素。第二个值“note.xsd”是要使用的schema文档的路径。
以下是中国XML论坛的两篇贴子可以作为参考和补充:
http://bbs.xml.org.cn/dispbbs.asp?boardID=23&ID=37706
http://bbs.xml.org.cn/dispbbs.asp?boardid=1&rootid=&id=9270
三、Schema文档的基本结构
首先给出一个完整的Schema文档
<?xml version=/"1.0/"?>
<xs:schema xmlns:xs=/"http://www.w3.org/2001/XMLSchema/"
targetNamespace=/"http://www.w3schools.com/"
xmlns=/"http://www.w3schools.com/"
elementFormDefault=/"qualified/">
<xs:element name=/"note/">
<xs:complexType>
<xs:sequence>
<xs:element name=/"to/" type=/"xs:string/"/>
<xs:element name=/"from/" type=/"xs:string/"/>
<xs:element name=/"heading/" type=/"xs:string/"/>
<xs:element name=/"body/" type=/"xs:string/"/>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:schema>
首先必须强调的是<schema>元素是Schema文档的根元素。注意大小写,Schema也是XML,XML是大小写敏感的。<schema>Element的所有子元素都是用于定义XML文档结构的。具体的语法在下篇介绍。在这里我们集中关注<schema>的属性。
xmlns:xs=/"http://www.w3.org/2001/XMLSchema/"这里指明了一个命名空间“http://www.w3.org/2001/XMLSchema”。同时定义了一个前缀“xs”。<schema>自己和所有子元素都使用“xs”前缀,说明属于该命名空间。
targetNamespace=/"http://www.w3schools.com/"targetNamespace是目标命名空间。这语句说明,这个Schema定义的元素(note, to, from, heading, body)是来自“http://www.w3schools.com”这个命名空间的。从另一个角度可以理解为,引用这个Schema进行有效性验证的XML的元素应该是使用该命名空间的。
xmlns=/"http://www.w3schools.com/"因为Schema也是XML。这语句说明这个XML的默认命名空间是“http://www.w3schools.com”。
elementFormDefault=/"qualified/"这句表示在本Schema中定义的Element,如果在XML实例文档出现的话,都要进行命名空间匹配。
同样给出一篇中国XML论坛的帖子作为参考和补充:
http://bbs.xml.org.cn/dispbbs.asp?boardID=23&ID=35354
首先简单的说一下,
Schema中的简单类型(SimpleType)有三种
:SimpleElement(简单元素)、Attribute(属性)和Restrictions(约束)。下面逐一介绍这几种类型。
一、XSD SimpleElement
所谓SimpleElement是指不包含任何其他元素和属性,只包含Text(元素间的内容)的元素。这里Text指代的不单单是文本(string),准确地说应该是数据,可以是Schema内置的数据类型的数据,也可以是我们自己创建的数据类型的数据。
定义一个SimpleElement
<xs:element name="xxx" type="yyy">在这里再次提醒语法,XML是大小写敏感的,属性的值要用双引号括起来。“xxx”是我们要定义的Element的名称。“yyy”是这个Element的数据类型。XML Schema预定义的内置数据类型有如下一些:
“xs:string ”、“xs:decimal”、“xs:integer”、“xs:boolean”、“xs:date”、“xs:time”。
看一个例子,以下是一些在XML中出现的SimpleElement <lastname>Refsnes</lastname>
<age>36</age>
<dateborn>1970-03-27</dateborn> 那么在Schema中应该作如下定义,注意Element名称和数据类型的对应。 <xs:element name="lastname" type="xs:string"/>
<xs:element name="age" type="xs:integer"/>
<xs:element name="dateborn" type="xs:date"/>
Element的默认值和固定值
默认值是当Elment中没有指定一个值时默认提供的值,使用default属性给出。 <xs:element name="color" type="xs:string" default="red"/>
固定值同样是自动给出的,但是XML的用户不能再为Element指定值,使用fixed属性给出。 <xs:element name="color" type="xs:string" fixed="red"/>
二、XSD Attribute
所有的Attribute都是作为简单类型的。一个SimpleElement是不能有属性的。如果一个Element包含有Attriute我们就认为它看作是一个复杂类型(Complex Type)。虽然Attribute不会单独的出现,但我们仍将它作为一种SimpleType在这里介绍
定义一个Attribute
<xs:attribute name="xxx" type="yyy"/> “xxx”是Attribute的名称。“yyy”是Attribute的数据类型。可以使用XML Schema定义的内置数据类型,如:“xs:string ”、“xs:decimal”、“xs:integer”、“xs:boolean”、“xs:date”、“xs:time”。
例如有如下一个Element,包含一个Attribute <lastname lang="EN">Smith</lastname>那么定义lang属性的Schema语句应该如下: <xs:attribute name="lang" type="xs:string"/>
Attribute的默认值和固定值
同样可以使用default属性和fixed属性为Attrbute指定默认值和固定值。
默认值 <xs:attribute name="lang" type="xs:string" default="EN"/> 固定值 <xs:attribute name="lang" type="xs:string" fixed="EN"/>
可选和必需属性
属性默认是可选的(即可以不填)可以使用use属性来指定属性是必需的,如下: <xs:attribute name="lang" type="xs:string" use="required"/>
三、XSD Restrictions(约束)
Restrictions是用来限制(或者说定义)Element或Attribute可接受值的。而对于Element的Restrictions通常又称为Facets。
下面通过一些常见的约束例子来说明Restrictions的用法和语法。
数值型范围限制
<xs:element name="age"><xs:simpleType>
<xs:restriction base="xs:integer">
<xs:minInclusive value="0"/>
<xs:maxInclusive value="120"/>
</xs:restriction>
</xs:simpleType></xs:element> 该约束定义age元素的值是整形而且值要在0到120之间。
枚举限制
<xs:element name="car">
<xs:simpleType>
<xs:restriction base="xs:string">
<xs:enumeration value="Audi"/>
<xs:enumeration value="Golf"/>
<xs:enumeration value="BMW"/>
</xs:restriction>
</xs:simpleType>
</xs:element> 这里约束了car的值是string,而且只能为“Audi”、“Golf”和“BMW”中的一个。
可以使用另一种写法: <xs:element name="car" type="carType"/>
<xs:simpleType name="carType">
<xs:restriction base="xs:string">
<xs:enumeration value="Audi"/>
<xs:enumeration value="Golf"/>
<xs:enumeration value="BMW"/>
</xs:restriction>
</xs:simpleType> 这种写法的好处是,上面的Restriction不是定义在Element中的,可以被其他的Element很方便的调用。
使用正则表达式(RegularExpression)约束
<xs:element name="letter">
<xs:simpleType>
<xs:restriction base="xs:string">
<xs:pattern value="[a-z]"/>
</xs:restriction>
</xs:simpleType>
</xs:element>这里<xs:pattern>的value属性的值是一个正则表达式正则表达式的语法则不再本文介绍的范围。使用RegularExpression你可以规定任何格式的string约束。
空格字符(Whitespace Characters)约束
<xs:element name="address">
<xs:simpleType>
<xs:restriction base="xs:string">
<xs:whiteSpace value="preserve"/>
</xs:restriction>
</xs:simpleType>
</xs:element> 以上例子对address中的所有空格字符进行保留。关键是value="preserve"。XML语法本来就是保留空格的。
当值为“replace”时
XML processer会用空间来代替所有的空格字符。
当值为“collapse”时
会将连续的空格合并成一个。
长度约束
<xs:element name="password">
<xs:simpleType>
<xs:restriction base="xs:string">
<xs:length value="8"/>
</xs:restriction>
</xs:simpleType>
</xs:element> 以上例子限定了password元素的长度为8。当然也可以使用 <xs:minLength value="?"/>和<xs:maxLength value="?"/>来限定最长最短值。
更多的有关约束标签的参考,请查阅以下的网址:
http://www.w3schools.com/schema/schema_elements_ref.asp
XML Schema总结