1.1:XML简介
XML(eXtensible Markup Language),是由万维网联盟(World Wide Web Consortium W3C)定义的一种语言, 称之为可扩展标置语言。可扩展性是指XML允许用户按照XML规则自定义标记。XML文件是由标记及其所标记的内容构成 的文本文件,与HTML文件不同的是,这些标记可自由定义,其目的是使得XML文件能够很好的体现数据的结构和含义。W3C推 出XML的主要目的是使得Internet网络上的数据相互交流更方便,让文件的内容更加显而易懂。
简单的XML写法:
<?xml version="1.0" encoding="UTF-8" ?>
<职员>
<姓名>
张三
<性别>男</性别>
<出生日期>1980年4月13日</出生日期>
</姓名>
</职员>
说明
<?xml version="1.0"?>和4个标记,每个标记都必须包括开始和结束标记,标记的开始和结束标记之间的内容称
为该标记 的内容.一个标记的内容可以包含文本或其他标记,其中的标记称为该标记的子标记,XML文件有且仅有
一个根标记,其他标记必须封装在根标记中,文件的标记必须形成树状结构。
1.2:XML和HTML有何不同
XML可以很好地描述数据的结构,有效地分离数据的结构和表示,可以作为数据交换的标准格式,而HTML是用
户编写Web页的语言,XML可以定义自己的标记,HTML不准允用户自定义标记,目有HTML大约有100多个标,
HTML不能体现数据的结构,只能够描述数据的显示格式。
1.3:XML的分类
XML分为:
a:规范的XML文件 符合W3C制定的基本语法规则的XML文件称为规范的XML文件
b:有效的XML文件 规范的XML文件如果再符合一些约束就称为有效的XML文件
1.4:XML声明
一个规范的XML文件应当以XML声明作为文件的第一行,在其前面不能有空白,其他任意指令或注释。
正确
<?xml
version="1.0" encoding="UTF-8" standalone="yes"
?>
错误
<?
xml
version="1.0" encoding="UTF-8" standalone="yes"
?>
(1)XML声明中的版本属性: 指明XML文件使用的XML版本
(2)XML声明中的编码属性: 指明XML文件采用哪种字符集进行编码
(3)XML声明中的独立性属性:指明XML文件是否引用外部实体,取值"yes"或"no"
1.5:特殊字符
XML文件中有5种字符属于特殊字符:<,>,",',&。对于这些特殊字符,XML有特殊的作用
要想在文本数据中使用这些特殊的字符,办法之一是能过实体引用。XML有5种预定义实体,实体引用格式如下:
<=======〈
>======= >
'===== '
"===== "
&====== &
解析器在解析标记中的数据时,实体引用将被换成所引用的实体,例如以下是正确的:
<name>&zhaojun</name>
另外,有些字符无法从键盘输入到文档中,我们可以使用字符引用,就是用字符的Unicode代码点来引用该字
符。以"&#x"开始字符引用,x必须为小写,使用十六进制。 <name>®</name>
CDATA段
当一段文本中出现很多实体引用和字符引用时,会导致文本数据的阅读困难,CDATA段用"<![CDATA["开始,用"]]
>"结束,之间的内容为CDATA段的内容,解析器不对CDATA段的内容 做分析处理,因此CDATA段中的内容可以
是任意字符。但是CDATA段中不能嵌套另一个CDATA段。
<![CDATA[
boolean flag = false && true;
<你好>
]]>
1.6:XML文件的有效性检查
用dtd文件来约束
1.7:控制XML文件的外观
用XSL控制其外观
1.8:解析XML文件
常用的有
DOM(Document Object Model,文档对象模型)
SAX(Simple API for XML)
关于1.6 , 1.7, 1.8讲在后面的章节讨论