java解析 xml schema_W3C XML Schema 教程

XML SCHEMA教程

本教程是笔者学习W3C的《XML Schema Tutorial》的笔记。如果你对原教程感兴趣,可以浏览http://www.w3schools.com/schema/default.asp。

XML Schema是W3C制定的基于XML格式的XML文档结构描述标准。作为一种文档描述语言,通常我们将其简写为XSD(XML Schema Define)。XSD作为DTD(文档类型定义)的替代者,已经广泛地应用到各种商业应用。使用XSD,我们不仅可以描述XML文档的结构以便颁布业务标准,而且可以使用支持XSD的通用化XML解析器对XML文档进行解析并自动地检查其是否满足给定的业务标准。应用XSD校验XML文档的结构后,我们不仅验证了XML文档的有效性(Well-Formed Document),还验证了XML文档的合法性,甚至验证了XML文档各域的值合法性(数据类型与编码值),而且这些验证工作不必我们编写任何代码,只需使用支持XSD的通用化XML文档解析器即可完成。这就给应用软件带来了巨大的灵活性,以前需要借助数据库或配置文件才能完成的参数化管理,现在只需按照新的业务需求发布新的XML Schema即可。

作为一个入门,下面列出一个XML文档及其XSD文档,使我们对XSD有个简单的认识:

XML:

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://www.w3schools.com

note.xsd">

Tove

Jani

Reminder

XSD:

<?xml version="1.0"?>(1)

targetNamespace="http://www.w3schools.com"

xmlns="http://www.w3schools.com"

elementFormDefault="qualified">

                                (3)

(4)

(5)

type="xs:string"/>(6)

type="xs:string"/>(7)

type="xs:string"/>(8)

type="xs:string"/>(9)

说明如下:

(1)<?xml version="1.0" ncoding="UTF-8"?>

XML文档定义,描述本文档使用的XML标准版本及文档编码标准。

(2)

xmlns:xs="http://www.w3.org/2001/XMLSchema"

targetNamespace="http://www.w3schools.com"

xmlns="http://www.w3schools.com"

elementFormDefault="qualified">

l 是所有XSD文档的根元素,其属性描述文档的名空间及文档引用;

lxmlns:xs="http://www.w3.org/2001/XMLSchema"指示使用xs:作前缀的元素、属性、类型等名称是属于http://www.w3.org/2001/XMLSchema名空间的。

ltargetNamespace="http://www.w3schools.com"指示本文档定义的元素、属性、类型等名称属于http://www.w3schools.com名空间;

lxmlns="http://www.w3schools.com"指示缺省的名空间是http://www. w3schools.com,即没有前缀的元素、属性、类型等名称是属于该名空间的。

lelementFormDefault="qualified"指示使用本XSD定义的XML文档所使用的元素必须在本文档中定义且使用名空间前缀。

(3)

定义一个元素,该元素的名称是note,即XML中的;

(4)

元素的类型是复杂类型,具体格式由子元素定义;

(5)

元素的子元素必须按顺序出现。具体的顺序由子元素的定义顺序决定;

(6)

type="xs:string"/>

定义一个元素,其类型是string,且其是的第1个子元素;

(7)

type="xs:string"/>

定义一个元素,其类型是string,且其是的第2个子元素;

(8)

type="xs:string"/>

定义一个元素,其类型是string,且其是的第3个子元素;

(9)

type="xs:string"/>

定义一个元素

,其类型是string,且其是的第4个子元素;

上面的说明可以看出我们描述的XML文档应满足这些要求:根元素是;可以包含四个子元素,分别是、、、,且必须按、、、的顺序出现;四个子元素都是string类型的。

1格式良好文档

满足下列要求的XML文档,称为格式良好的文档(Well-Formed Document):

(1)使用XML定义打头,如:<?xml version="1.0" encoding="UTF-8"?>;

(2)文档仅包含一个唯一的根元素;

(3)起始标记()必须与结束标记()匹配;

(4)大小写敏感;

(5)所有元素是闭合的(配套);

(6)所有元素嵌套是正确的;

(7)所有属性使用""或’’括;

(8)entities must be used for

special characters。

应注意到,满足上述要求的文档只能算是有效的文档,但不能算是合法的文档。例如,业务标准要求文档中必须包含5个元素,如果文档中仅包含了4个,它仍是格式良好的文档,但不满足业务标准要求,是一个非法的文档。

2XSD应用的场合

(1)定义文档中可以出现的元素;

(2)定义文档中可以出现的属性;

(3)定义元素包含哪些子元素;

(4)定义元素出现的顺序;

(5)定义元素出现的次数;

(6)定义哪些元素是空或可以包含text;

(7)定义元素与属性的数据类型;

(8)定义元素与属性的缺省值或固定值或值范围、值列表。

3XSD相对于 DTD的优势

(1)XSD支持数据类型;

l易于描述许可的文档组成;

l易于校验数据的合法性;

l易于使用数据库中的数据;

l易于定义数据的约束;

l易于定义数据的模式;

l易于在不同数据类型间进行格式转换

(2)XSD使用XML语法;

(3)XSD使数据交换更安全,因为它描述了数据的格式,避免了歧义;

(4)XSD可以扩展,支持类型的扩展和结构的扩展。

4文档引用

XSD支持名空间(NameSpace)和文档引用。通过名空间,可以避免文档引用中可能导致的名称重复问题。W3C规定XSD的名空间使用URI作为名称。以前面的XML为例:

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://www.w3schools.com

note.xsd">

lxmlns="http://www.w3schools.com"指示本文档缺省的名空间,即没有前缀的所有的元素应在该空间中定义;

lxmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"指示本文档要引用http://www.w3.org/2001/XMLSchema-instance名空间定义的名称,其前缀是xsi;

lxsi:schemaLocation="http://www.w3schools.com

note.xsd"指示本文档要引用的http://www.w3schools.com名空间的XSD文档是note.xsd。如果要引用多个名空间的XSD文档,则使用空格分隔多个‘Namespace xsd’对。例如:http://www.acom.com a.xsd http://www.bcom.com b.xsd...。如果XSD文档没有使用名空间,则使用xsi:noNamespaceSchemaLocation="note.xsd"代替xsi:schemaLocation。

5简单元素描述

简单元素指只包含text的XML元素,它没有任何子元素或属性,如:男。简单元素可以附加地定义其缺省值或固定值。XSD定义简单元素的格式是:

[default="defval"] [fixed="fixedval"]>。其中ttt使用XSD标准定义的基本类型,即:xs:string、xs:decimal、xs:integer、xs:boolean、xs:date、xs:time等。例如:。

使用上述方式定义的简单元素只能限定元素的数据类型、缺省值、固定值。如果希望限定该简单元素的取值范围等约束,则应使用简单类型定义,并在简单类型中嵌套值约束子元素。如:

base="xs:string">

其中,约束的定义方式参考第6节。

6复杂元素描述

复杂元素指包含属性或子元素的XML元素,如:,主要包括下列四类:

l空元素:只包含属性的元素。如:

name=”li” />;

l只包含属性与子元素的元素。如:

Jack

Tom

l只包含属性与text的元素。如:

Jack

l只包含属性、text和子元素的元素。如:

Your name is:

xxx

xxx

复杂元素是一种复杂类型,可以使用下面两种描述方式,一是复合结构,二是分离结构。复合结构,则直接将复杂类型定义为复杂元素的子元素;分离结构则是将复杂类型定义在外部,由复杂元素引用。

l复合结构

...

l分离结构

...

这两种描述结构也适合于属性、简单元素的描述。如果XSD元素中存在大量可复用的自定义数据类型时,建议使用分离式的定义结构。

6.1数据类型

XSD的数据类型包括基本数据类型、简单数据类型、复杂数据类型三类。基本数据类型指W3C标准定义的数据类型,主要包括xs:integer、xs:string、xs:date、xs:boolean等。简单数据类型是基本数据类型的扩展,对取值进行约束;复杂数据类型则是一个复杂的数据结构,通常包含了属性或子元素定义。

(1)简单类型

简单类型扩展基本数据类型,并对值施加一定的约束。如:

(2)复杂类型

复杂类型通常是复杂元素的数据类型或复杂元素的子元素,描述复杂元素的子元素、属性以及子元素与属性的类型。参看后续各小节的描述。

6.2约束

约束指对简单类型的元素或属性施加的值约束条件,主要包含范围约束、长度约束、枚举值、模式匹配、空白处理等,是XSD元素或属性值限制的基础。

(1)范围约束

范围约束主要施加到数值型、日期型等类型,限制取值的范围。如:

base="xs:integer">

value="0"/>

value="120"/>

上述范围约束限定的取值范围是:0<=值<=120。

其他的值范围约束元素主要包括:

lfractionDigits 设置最大小数位数

ltotalDigits 指定精确的数值位数

lmaxExclusive 设置数值型的最大值(val < xxx)

lmaxInclusive 设置数值型的最大值(val <= xxx)

lminExclusive 设置数值型的最小值(val > xxx)

lminInclusive 设置数值型的最小值(val >= xxx)

(2)长度约束

长度约束施加到任何类型上限制值的长度,包括固定长度、最大长度、最小长度三个限定元素。如:

base="xs:string">

base="xs:string">

(3)枚举值约束

枚举值约束限制元素或属性的值只能在给定的值列表中取值,并使用base属性指示值的数据类型。如:

value="CNY"/>

value="USD"/>

value="JPY"/>

(4)模式匹配约束

模式匹配约束限制元素或属性的值应满足给定的模式要求,并使用base属性指示值的数据类型。如:

base="xs:string">

以下是些模式匹配的示例:

l[a-z] a-z间的单个字符;

l[A-Z][A-Z] 两个字符,每个字符都在A-Z间;

l[a-zA-Z] a-z或A-Z间的单个字符;

l[abc] 单个字符 a或b或c;

l([a-z])* 零个或任意个字符a-z;

l([a-z][A-Z])+ 一个或任意个字符对,每对字符大小写间隔出现;

l"a"|"b" 值只能是a或b,与枚举类似;

l[a-zA-Z0-9]{8} 精确的八个a-z或A-Z或0-9间的字符。

(5)空白处理约束

空白处理约束限制XML文档解析器如何处理值的组成空白字符,使用限定元素指示。如:

base="xs:string">

value="replace"/>

value可能的取值包括:

lreplace 删除内容中的全部空白;

lpreserve 保留内容中的全部空白;

lcollapse 删除前导、后导空白,替换内容中的一个或多个空白为一个空格;

6.3属性

属性本身总是定义为简单类型的。属性可以指定缺省值、固定值、强制项、约束等属性。属性定义格式是:

[default="ddd"] [fixed="fff"] [use="required"]

>。

如:

name="orderid" type="xs:string"

use="required"/>

6.4空元素描述

空元素通常使用描述:

name="prodid" type="xs:positiveInteger"/>

或使用描述,这种格式通常在元素包含属性和文本时使用。

base="xs:integer">

name="prodid" type="xs:positiveInteger"/>

或者使用分离结构描述。

6.5只包含子元素的元素描述

name="firstname" type="xs:string"/>

name="lastname" type="xs:string"/>

或使用分离结构描述。

6.6只包含text的元素描述

Text总是基本类型或简单类型的,因此其描述使用扩展基本类型。

...

使用扩展基本类型;

或:

...

使用xs:restriction 扩展类型。

如果元素包含属性和文本,则描述格式如下:

name="country" type="xs:string" />

6.7混合结构的元素描述

如果子元素间夹杂了text,则text总被认为是xs:string的,因此只需描述子元素的组成,并使用mixed="true"指示本元素是混合结构的元素。如下列描述:

.xml

Dear

Mr.John Smith:Your order 1032will be shipped on 2001-07-13.

Thanks.

.xsd

type="xs:string"/>

type="xs:positiveInteger"/>

type="xs:date"/>

6.8类型扩展

XSD使用扩展一个基本类型、简单类型或复杂类型。扩展简单类型主要是增加附加的一些约束,扩展复杂类型则可以增加新的组成元素或属性。如:

(1)基本类型扩展

/>

(2)复杂类型扩展

name="personinfo">

name="firstname" type="xs:string"/>

name="lastname" type="xs:string"/>

name="fullpersoninfo">

base="personinfo">

name="address" type="xs:string"/>

type="xs:string"/>

name="country" type="xs:string"/>

对复杂类型进行扩展,使用,对简单类型进行扩展使用。

6.9复杂类型指令

复杂类型指令控制子元素如何在复杂元素中使用,包括三类指令:顺序、次数、分组。

(1)顺序

顺序指令控制子元素是否按顺序出现,包含三种类型:

l

指示这些子元素最多出现一次,且顺序无关(minOccurs=0,maxOccurs=1)。

name="fullpersoninfo">

type="xs:string"/>

type="xs:string"/>

type="xs:string"/>

l

指示这些子元素必须按顺序出现。

name="fullpersoninfo">

type="xs:string"/>

type="xs:string"/>

type="xs:string"/>

l

指示这些子元素只能出现其中一个。

name="fullpersoninfo">

type="xs:string"/>

type="xs:string"/>

type="xs:string"/>

(2)次数

次数指令作为元素的属性,控制元素可以出现的次数,包含两个指令:minOccurs、maxOccurs。如:

(3)组

组指令指示一个元素或属性集合。

元素组使用

name="xxx">嵌套一个all、choice、sequence指令;定义后,使用引用元素组。

属性组使用

name="xxx">嵌套多个属性定义。定义后,使用引用属性组。

复杂类型还可以使用一些特殊的标记扩展文档。

l

"0" >指示可以在此位置包含任何其他元素;(这些元素也必须在Schema文档中进行定义)

l 指示可以在此位置包含任何其他的属性。(这些属性也必须在Schema文档中进行定义)

6.10置换组

置换组可以根据用户需要选择使用一组元素,其实际的效果相当于给一个元素取了一个别名。如:

type="xs:string"/>

navn是name的置换,因此文档中使用的位置均可以使用且的类型和类型一致。

如果想禁止置换某个元素,可以在定义元素时使用

block="substitution" 属性。

置换元素和被置换元素必须是全局元素。所谓全局元素就是元素的直接子元素。嵌套在全局元素中的元素称为本地元素。(因此,复杂类型定义中总是使用的形式引用全局元素)

6.11最佳实践

(1)将可能被共享的元素创建为全局基本元素;(或将全部元素创建为全局元素);

(2)根据各元素的类型创建全局的类型,并设置必要的约束;

(3)组合(引用)全局基本元素形成元素集合(复杂类型);

(4)组合复杂类型为最终的模型。

使用这种模式,适合大型项目,可以共享大量的元素定义,但缺点是由于共享大量的元素定义,可能导致模型比较复杂。

7实例

下面我们对给定的xml建模其xsd文档,使用的工具是myEclipse。

.xml

encoding="ISO-8859-1"?>

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:noNamespaceSchemaLocation="shiporder.xsd">

John

Smith

Ola Nordmann

Langgt

23

4000 Stavanger

Norway

Empire

Burlesque

Special

Edition

1

10.90

Hide your

heart

1

9.90

(1)整理文档的基本格式要求:

l没有使用名空间;

l根元素是shiporder;

lshiporder有一个属性orderid,类型是整型的;

lshiporder有三个子元素:

norderperson 是字符串型的;

nshipto是个复杂类型的,且只能出现一次;

nitem是复杂类型的,可以出现1次或多次;

lshipto有四个子元素:

nname是字符串型的;

naddress是字符串型的;

ncity是字符串型的;

ncountry是字符串型的;

litem有三个子元素:

ntitle是字符串型的;

nquantity是整型的;

nprice是数值型的。

(2)创建全部元素、属性为全局元素、

1390badc493a29c802fae5e977f233ee.png

(3)创建各自定义类型的描述;由于我们将全部元素均创建为全局元素,因此在创建类型的组成元素时,我们均创建为对全局元素的引用。另外,注意指定组成元素的出现次数。

a39b0bcf296162299a8a6dcd2ccf2e5f.png

7d639947ccd6621e2d265531b2189a76.png

95a81474ac8c39db259d0f78aac2fb6b.png

(4)修改xsd的名空间;

(5)最终形成的文档如下:

xmlns:xsd="http://www.w3.org/2001/XMLSchema">

maxOccurs="unbounded">

注意:xsd中,xmlns:xsd="http://www.w3.org/2001/XMLSchema"指示全部引用XSD标准定义的名称使用xsd作为前缀,而前面文章描述中我们使用的前缀是xs,这个差异是工具形成的,都是合法的,甚至我们可以定义前缀是任何我们想要的,换句话说xs并非强制要求的前缀。

posted on 2008-02-13 21:02 飞鹰 阅读(2350) 评论(0)  编辑  收藏

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值