java大于号实体引用,XML的字符、实体引用

最新推荐文章于 2024-01-26 17:39:20 发布

weixin_39981400

最新推荐文章于 2024-01-26 17:39:20 发布

阅读量773

点赞数

文章标签： java大于号实体引用

本文介绍了XML中字符引用和实体引用的使用方法，如何通过`NNNNNN;`和`XXXX;`表示非ASCII字符，以及实体引用作为宏的用途，包括预定义实体和自定义实体的定义过程。还强调了CDATA的重要性及其在避免解析错误中的角色。

摘要由CSDN通过智能技术生成

与HTML一样，XML为显示非ASCII码字符集中的字符提供了两种方法：字符引用和实体引用。

1、字符引用

在XML中，字符引用是一个字符文字形式的替代品，当对该字符的文字形式直接处理会导致违反XML队格式正规的要求时，它会起到非常重要的作用。

字符引用用来表示一个可显示的字符，它由十进制或十六进制的数字前面加上“”或“”，后面紧跟分号“;”组成：

NNNNNN; XXXX;

上面的字符串“NNNNNN”和“XXXX”可能是一个或多个数字，它们对应着任何XML允许的统一代码字符值。虽然在HTML中十进制数字更加通用，但XML还是偏向于使用十六进制的兴致，因为统一代码就是用十六进制进行编码。

例如，©或ũ(在浏览器中)会被显示为(c)，而®或会被显示为(R)。

2、实体引用

实体引用允许在元素内容或属性值中插入任何字符串，这就是字符引用提供了一种助记的替代方式。

实体引用是一种合法的XML名字，前面带有一个符号“&”，后面跟着一个分号“;”如

&name;

有五个实体被定义为XML的固有部分，他们通常用作XML标记分隔符号的转义序列：

&

通常用来替换字符&(CDATA部分除外)

< 通常用来替换字符大于号

> 可能用来替换字符大于号>(在CDATA部分中，如果>紧跟着字符串“]]”就必须使用该实体)

'

可用来替换字符串中的单引号'

" 可用来替换字符串中的字符双引号"

除了上述的五个实体外，所有实体都必须在文档使用前予以定义(好像Java中的全局变量一样)。实体在文档的DTD中定义，DTD可以是一个被称为“外部子集”的文档外的独立对象；也可以是一个在文档本身中使用..>声明的“内部子集”。如果XML解析器发现一个未定义的实体引用，就会按照XML规范定义的那样报告一个致命错误。

例如：AT&T在支持XML的浏览器中会显示为AT&T。

实体引用还可以用作普通的文本宏(样本文件)。例如下面的文本包含了一对实体引用：

NOTE:

&Disclaimer; [per &WORX;]

当引用被替换成他们所代表的值时，它可能显示为：

NOTE：This information is

not to be used for navigation!

当然，此时我们假设这些实体已经经过定义。

如果实体的替换文本在声明时包含另一个实体引用，该引用会顺序扩展开，直到所有嵌套的引用全部解析完毕。但是，嵌套的“名称”不能够包含对自己的递归引用，不管是直接的还是间接的。

XML CDATA

所有 XML

文档中的文本均会被解析器解析。

只有 CDATA 区段(CDATA

section)中的文本会被解析器忽略。

PCDATA

PCDATA 指的是被解析的字符数据(Parsed

Character Data)。

XML 解析器通常会解析 XML 文档中所有的文本。

当某个 XML

元素被解析时，其标签之间的文本也会被解析：

此文本也会被解析

解析器之所以这么做是因为 XML

元素可包含其他元素，就像这个例子中，其中的

元素包含着另外的两个元素(first 和 last)：

BillGates

而解析器会把它分解为像这样的子元素：

Bill

Gates转义字符

非法的 XML

字符必须被替换为实体引用(entity

reference)。

假如您在 XML 文档中放置了一个类似

"

字符，那么这个文档会产生一个错误，这是因为解析器会把它解释为新元素的开始。因此你不能这样写：

if salary <

1000 then

为了避免此类错误，需要把字符 "

替换为实体引用，就像这样：

if salary

< 1000

then在 XML 中有 5

个预定义的实体引用：<大于&&和号''省略号""引号

注释：严格地讲，在 XML 中仅有字符

"

是非法的。省略号、引号和大于号是合法的，但是把它们替换为实体引用是个好的习惯。

CDATA

术语 CDATA 指的是不应由 XML

解析器进行解析的文本数据(Unparsed Character

Data)。

在 XML 元素中，"

是非法的。

"

会产生错误，因为解析器会把该字符解释为新元素的开始。

"&"

也会产生错误，因为解析器会把该字符解释为字符实体的开始。

某些文本，比如 JavaScript 代码，包含大量

"

字符。为了避免错误，可以将脚本代码定义为

CDATA。

CDATA 部分中的所有内容都会被解析器忽略。

CDATA 部分由 "

"]]>" 结束：

在上面的例子中，解析器会忽略 CDATA

部分中的所有内容。

关于 CDATA 部分的注释：

CDATA 部分不能包含字符串

"]]>"。也不允许嵌套的 CDATA 部分。

标记 CDATA 部分结尾的 "]]>"

不能包含空格或折行。

weixin_39981400

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。