系统交互会用到xml,如果直接构造xml的字串,很容易出现非法字符,所以一般推荐,使用dom4j 先构造合法的xml obj,然后再转为字串。但实际上,即便如此,如果遇到xml的非法字符,即便构造xml obj成功,最后转的xml 字串也是有问题。
xml的无效字符包含ascii值在32以下的三段:0x00-0x08, 0x0b-0x0c, 0x0e-0x1f。在字串中有这些特殊字符时会出现解析错误。dom4j的Element可以设置这些字符,不幸的是,却无法再解析出来。
解决办法:轮询字串的char数组,找出这些字符扔掉即可。方法如下:
public static void main(String[] args) throws Exception{
String invalidStr = "测试特殊符号“”";
String validStr = toValidXmlStr(invalidStr);
Element e = DocumentHelper.createElement("text");
e.setText(validStr);
System.out.println(validStr);
System.out.println(DocumentHelper.parseText(e.asXML()).asXML());
}
/**
* filter the invalid xml characters:
* <ol>
* <li>0x00 - 0x08</li>
* <li>0x0b - 0x0c</li>
* <li>0x0e - 0x1f</li>
* </ol>
* @param xmlStr
* @return
*/
private static String toValidXmlStr(String xmlStr){
StringBuilder sbud = new StringBuilder();
for(char c : xmlStr.toCharArray()){
if(!(0x00 < c && c < 0x08
|| 0x0b < c && c < 0x0c
|| 0x0e < c && c < 0x1f)){
sbud.append(c);
}
}
return sbud.toString();
}
如果直接用invalidStr 进行setText(),虽然此处不报错,但是再解析的时候会报 invalid xml character的异常。