XML技术小小总结

XML技术小小总结

本文于2020-4-25重构
删去大部分XML约束的内容,只保留一点基本的约束知识
如需扩展,我下文中提供了相应的网址

XML概述

XML全称为eXtensible Markup Language, 意思是可扩展的标记语言,它是 SGML(标准通用标记语言)的一个子集。而HTML(HyperText Mackeup Language)为超文本标记语言

XML语法上与HTML相似,但HTML中的元素是固定的,XML的标签由用户自定义

XML可以用来

  • 编写程序的配置文件
  • 数据交换,不同语言之间用来交换数据(在WEB中已被JSON取代)
  • 小型数据库,用来当数据库使用(没必要)

XML与HTML比较:

  • HTML 元素是固定的,XML可以自定义元素‘
  • HTML用浏览器解析执行,XML的解析器通常需要自己来写(因为元素是自定义的)
  • HTML只能用来表示网页,XML可以做的事情很多

XML与properties(属性文件)的比较:

  • 属性文件只能存储平面信息,而XML可以存储结构化信息
  • 解析属性文件只需要用properties类就可以了,解析XML文档是相对复杂的

XML文档展示:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<students>
	<student number="1001">
		<name>zhangSan</name>
		<age>23</age>
		<sex>male</sex>
	</student>
	<student number="1002">
		<name>liSi</name>
		<age>32</age>
		<sex>female</sex>
	</student>
</students>

一份XML文档包含:

  • XML文档声明
  • XML处理指令
  • XML元素
  • XML特殊字符与CDATA区(转义区)
  • XML注释

XML文档声明

概述:

可以把XML文档声明看成是XML文档说明

最简单的XML文档声明:<?xml version="1.0">

注意:XML区分大小写

XML文档声明结构:

  • version属性:用于说明当前XML文档的版本,默认使用1.0,version属性是必须的

  • encoding属性:说明当前XML文档使用的字符编码集XML解析器会使用这个编码来解析XML文档,encoding属性是可选的,默认utf-8

  • standalone属性:用于说明当前XML文档是否独立文档(yes/no),若XML文档不是独立的,即依赖外部的约束文件,默认yes

  • xml文档声明必须从xml文档的1行1列开始

XML元素

闭合原则:

XML元素包含:开始标签、元素体(内容)、结束标签

例如:<hello>大家好</hello>

空元素:空元素只有开始标签没有元素体和结束标签,但空元素一定要闭合。例如:< hello/>

支持嵌套:

  • xml元素可以包含子元素或文本数据例如:<a><b>hello</b></a>,a元素的元素体内容是b元素,而b元素的元素体内容是文本数据hello

根元素:

比较以下两端XML代码:

<?xml version="1.0" encoding="utf-8" standalone="no"?>
<students>
	<student number="1001">
		<name>zhangSan</name>
		<age>23</age>
		<sex>male</sex>
	</student>
	<student number="1002">
		<name>liSi</name>
		<age>32</age>
		<sex>female</sex>
	</student>
</students>
<?xml version="1.0" encoding="utf-8" standalone="no"?>
<student number="1001">
	<name>zhangSan</name>
	<age>23</age>
	<sex>male</sex>
</student>
<student number="1002">
	<name>liSi</name>
	<age>32</age>
	<sex>female</sex>
</student>

针对student的存储来说:

student1.xml是格式良好的xml文档,只有一个根元素,即students元素。

student2.xml不是格式良好的xml文档,有两个根元素,即两个student根元素。

格式良好的XML文档一般只有一个根元素

不要留空白:

注意:编写XML元素时,出现空白,在解析XML程序时,可能会出现异常,如

<a>
  <b>
hello
  </b>
</a>

命名规范:

xml元素名可以包含字母数字以及一些其它可见字符,但必须遵循下面的一些规范:

  • 区分大小写<a>和<A>是两个元素;
  • 不能以数字开头<1a>都是错误的;
  • 最好不要以xml开头<xml>、<Xml>、<XML>
  • 不能包含空格

元素属性:

  • 属性由属性名与属性值构成,中间用等号连接;
  • 属性值必须使用引号括起来,单引或双引
  • 定义属性必须遵循与标签名相同的命名规范
  • 属性必须定义在元素的开始标签中;
  • 一个元素中不能包含相同的属性名

注释:

<!--  -->
  • 注释以<!--开头,以-->结束;

  • 注释中不能包含–;

转义

因为在xml文档中有些字符是特殊的,不能使用它们作为文本数据。例如:不能使用“<”或“>”等字符作为文本数据,所以需要使用转义字符来表示。

例如<a><a></a>,你可能会说,其中第二个< a >是a元素的文本内容,而不是一个元素的开始标签,但XML解析器是不会明白你的意思的。

解决方法一:使用转义字符(不推荐)

<a><a></a>中元素值a的敏感字符使用转义符替代

<a>&lt;a&gt;</a>

常见的转义字符:

转义字符都是以“&”开头,以“;”结束。这与后面我们学习的实体是相同的

CDATA区(CDATA段)(推荐):

当大量的转义字符出现在xml文档中时,会使xml文档的可读性大幅度降低,这时如果使用CDATA段就会好一些

<a><![CDATA[<a>]]></a>

在CDATA段中不能包含“]]>”,即CDATA段的结束定界符

XML约束(选读)

因为XML文档是可以自定义元素的,这会让使用XML文档的应用程序无法知道XML文档的真实结构。通常应用程序都会要求XML文件的结构是固定的,以满足自己的需求,这就说明,不同的应用程序要求自己的XML文档必须符合一定的要求

XML文档约束是用另一个文件来约束XML文档的结构,例如要求XML文档的根元素必须是< students >,在< students >元素下可以包含0~n个< student >元素,每个< student >元素必须有一个number属性,而且还要有三个子元素,分别为< name >、< age >、< sex >,这三个子元素的内容必须为文本内容,而不能是子元素

DTD约束(淘汰

dtd是平面式文档,dtd文件不是xml文档,通常扩展名为“.dtd”。它是最早的xml约束

编写相关DTD文件:

<!ELEMENT students (student+)>
<!ELEMENT student (name,age,sex)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT sex (#PCDATA)>

在XML文档中指定DTD约束文件

<?xml version="1.0" encoding="utf-8" standalone="no" ?>
<!DOCTYPE students SYSTEM "students.dtd">   <-----
<students>
	<student>
		<name>zhangSan</name>
		<age>23</age>
		<sex>male</sex>
	</student>
</students>
  • 其中< !DOCTYPE students SYSTEM "students.dtd" >,表示指定dtd文件

  • SYSTEM表示dtd文件在本地

在XML文档中指定外部公共DTD约束:

<?xml version="1.0" encoding="utf-8" standalone="no" ?>
<!DOCTYPE students PUBLIC "-//rlteach//DTD ST 1.0//ZH" "http://www.rlteach.com/xml/dtds/st.dtd">
<students>
	<student>
		<name>zhangSan</name>
		<age>23</age>
		<sex>male</sex>
	</student>
</students>

外部公共DTD是说,DTD由某个公司或权威组织发布,如下:

< !DOCTYPE 根元素 PUBLIC "DTD名称" "DTD网址">

当然你需要知道要使用的DTD的名称和网址。如果某个机构公布了DTD,那么一定也会公布DTD的名称和网址

如果想继续学习更多内容或者自己编写DTD,可以参考
DTD教程

Schema约束

这个约束是比较重要的,也是现在主流的指定约束方式

DTD的局限性

  • DTD不遵守XML语法(写XML文档实例时候用一种语法,写DTD的时候用另外一种语法)

  • DTD数据类型有限(与数据库数据类型不一致)

  • DTD不可扩展

  • DTD不支持命名空间(命名冲突)

Schema的新特性

  • Schema基于XML语法

  • Schema可以用能处理XML文档的工具处理

  • Schema大大扩充了数据类型可以自定义数据类型

  • Schema支持元素的继承

  • Schema支持属性组

Schema文档结构

  • <xs:schema>:xs是命名空间的别名,也可以自定义,但是建议使用默认的

  • xmlns:约束当前xml的命名空间

更多内容参考:

XML Schema 教程

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值