一、认识XML
XML是Extensible Markup Language即可扩展标记语言的缩写,是一种简单的数据存储语言,使用一系列简单的标记来描述数据。XML技术应用广泛,最基本的如网站、应用程序的配置信息一般采用XML文件描述。
XML的特点如下。
XML与操作系统、编程语言的开发平台都无关。
规范统一。
二、XML文档结构
首先来了解XML文档结构,如下所示是描述图书信息的XML代码。
<?xml version="1.0" encoding="UTF-8"?>
<books>
<book id="bk101">
<author>王珊</author>
<title>.NET高级编程</title>
<description>包含C#框架和网络编程等</description>
</book>
<book id="bk102">
<author>李明明</author>
<title>基础编程</title>
<description>包含XML基本概念和基本用法</description>
</book>
</books>
1.XML声明
<?xml version="1.0" encoding="UTF-8"?>表示XML声明,用以标明该文件是一个XML文档。XML文档总是以XML声明开始,它定义了XML的版本和使用的编码格式等信息。
XML声明由以下几个部分组成。
version:文档符合XML1.0规范。
encoding:文档字符编码,默认为“UTF-8”。
对于任何一个XML文档,其声明部分都是固定的格式。
2.标签
在XML中,用<>括起来的各种标签来标记数据,标签需成对使用来界定字符数据,例如,王珊这一个标签中,是开始标签,是结束标签,“王珊”是标签描述的内容,表示作者信息。XML文件可以包含任意数量的标签。
3.根元素
每个XML文档必须有且仅有一个根元素,如。
根元素的特点如下。
根元素是一个完全包括文档中其他所有元素的元素。
根元素的起始标签要放在所有其他元素的起始标签之前。
根元素的救赎标签要放在所有其他元素的结束标签之后。
4.元素
XML文档的主要部分是元素,元素由开始标签、元素内容和结束标签组成。元素内容可以包含子元素、字符数据等。如王珊就是一个元素。
元素的命名规则如下。
名称中可以包含字母、数字或者其他字符。
名称不能以数字或者标点符号开始。
名称不能以字符xml(或者XML、Xml)开始。
名称中不能包含空格。
5.属性
在描述图书信息的XML文档中,标签使用id属性描述图书的标号信息。
属性定义语法如下。
<元素名 属性名=“属性值”>
属性值用一对双引号包含起来。
6.XML中的特殊字符的处理
在XML中,有时在元素的文本中会出现一些特殊字符(如<、>、’、"、&),而XML文档结构本身就用到了这几个特殊字符,有以下两种方法,可以正确的解析包含特殊字符的内容。
(1)对这5个特殊字符进行转义,也就是使用XML中的预定义实体代替这些字符,XML中的预定义实体和特殊字符的对应关系如下。
< <
> >
& &
" "
’ ’