在XML文件处理的过程中,经常遇到一些类似于
0x1A 的错误信息提示,其实XML的字符是有国际标准的(http://www.w3.org/TR/2000/REC-xml-20001006#NT-Char),所以有必要删除那些不符合标准的字符,否则后果可是不可想象的..
下面是一个用正则表达式过滤的例子....
// From xml spec valid chars:
// #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
// any Unicode character, excluding the surrogate blocks, FFFE, and FFFF.
// [^//x09//x0A//x0D//x20-//xD7EF//xE000-//xFFFD//x10000-//x10FFFF]
Pattern pt = Pattern.compile("[^//x09//x0A//x0D//x20-//xD7EF//xE000-//xFFFD//x10000-x10FFFF]");
Matcher mat = pt.matcher(text);
return mat.replaceAll("");
}