xml 构造及解析时的非法字符问题

      系统交互会用到xml,如果直接构造xml的字串,很容易出现非法字符,所以一般推荐,使用dom4j 先构造合法的xml obj,然后再转为字串。但实际上,即便如此,如果遇到xml的非法字符,即便构造xml obj成功,最后转的xml 字串也是有问题。

 

      xml的无效字符包含ascii值在32以下的三段:0x00-0x08, 0x0b-0x0c, 0x0e-0x1f。在字串中有这些特殊字符时会出现解析错误。dom4j的Element可以设置这些字符,不幸的是,却无法再解析出来。

 

      解决办法:轮询字串的char数组,找出这些字符扔掉即可。方法如下:

 

public static void main(String[] args) throws Exception{		
		String invalidStr = "测试特殊符号“”";
		String validStr = toValidXmlStr(invalidStr);
		Element e = DocumentHelper.createElement("text");		
		e.setText(validStr);
		System.out.println(validStr);
		System.out.println(DocumentHelper.parseText(e.asXML()).asXML());
		
		
	}
	
	/**
	 * filter the invalid xml characters:
	 * <ol> 
     *  <li>0x00 - 0x08</li> 
     *  <li>0x0b - 0x0c</li> 
     *  <li>0x0e - 0x1f</li> 
     * </ol> 
	 * @param xmlStr
	 * @return
	 */
	private static String toValidXmlStr(String xmlStr){
		StringBuilder sbud = new StringBuilder();
		for(char c : xmlStr.toCharArray()){
			if(!(0x00 < c && c < 0x08 
					|| 0x0b < c && c < 0x0c
					|| 0x0e < c && c < 0x1f)){
				sbud.append(c);
			}
		}
		return sbud.toString();
	}

 

      如果直接用invalidStr 进行setText(),虽然此处不报错,但是再解析的时候会报 invalid xml character的异常。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值