XML非打印字符问题解决

[b]问题描述[/b]
[list]
[*][color=olive]1、解析XML是遇到无效字符报错[/color]
[*][color=olive]2、查找原因为标签里出现了一些非打印字符[/color]
[*][color=olive]3、解决方法:在写入XML的时候需要过滤此类字符[/color]
[/list]

/**
* 过滤出现在XML里的非打印字符
*
* @param in
* @return
* @author jeck218@gmail.com
*/
public static String filtInvalidXMLChars(String in) {
if (in == null || "".equals(in))
return "";

StringBuilder out = new StringBuilder();
char current;

for (int i = 0; i < in.length(); i++) {
current = in.charAt(i);
if ((current == 0x9) || (current == 0xA) || (current == 0xD)
|| ((current >= 0x20) && (current <= 0xD7FF))
|| ((current >= 0xE000) && (current <= 0xFFFD))
|| ((current >= 0x10000) && (current <= 0x10FFFF)))
out.append(current);
}
return out.toString();
}


[b]1、标准 ASCII 码[/b]
[list]
[*][color=olive]标准 ASCII 码是 7 位编码,但由于计算机基本处理单位为字节( 1byte = 8bit ),所以一般仍以一个字节来存放一个 ASCII 字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为 0 (在数据传输时可用作奇偶校验位)。 [/color]
[*][color=olive]基本的 ASCII 字符集共有 128 个字符,其中有 96 个可打印字符,包括常用的字母、数字、标点符号等,另外还有 32 个控制字符。[/color]
[/list]
[b]2、扩展 ASCII 码[/b]
[list]
[*][color=olive]由于标准 ASCII 字符集字符数目有限,在实际应用中往往无法满足要求。为此,国际标准化组织又制定了 ISO2022 标准,它规定了在保持与 ISO646 兼容的前提下将 ASCII 字符集扩充为 8 位代码的统一方法。 ISO 陆续制定了一批适用于不同地区的扩充 ASCII 字符集,每种扩充 ASCII 字符集分别可以扩充 128 个字符,这些扩充字符的编码均为高位为 1 的 8 位代码(即十进制数 128~255 )[/color]
[/list]
[img]/upload/attachment/99468/46f20b9b-07c5-3c46-a2e4-3580e873c555.gif[/img]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值