paip.解决Invalid byte 2 of 2-byte UTF-8 sequence.
这几天写一个程序,通过51CTO的MEATWEBLOG api发文.。用的LIB是XMLRPCCLIENT,结果返回的XML解析出错..提示
UTFDataFormatException: Invalid byte 2 of 2-byte UTF-8 sequence.
用miniSniffer抓包,一切都正常。。
返回的XML标明是UTF8,XML解析也是UTF8,按道理不应该有问题啊..
我想,可能返回的XML带有UTF8 BOM标头所致,得要将返回数据保存至文件研究一下。。于是下载了APACHE XMLRPCCLIENT的源码,附加上去,/org/apache/xmlrpc/client/XmlRpcStreamTransport.java
protected Object readResponse(XmlRpcStreamRequestConfig pConfig, InputStream pStream)
这个方法,返回了原始的InputStream 流, 在此加挂了段代码,将其DUMP至文件来具体研究..
mole.io.filex.saveToFile(pStream,"c:\\streamUTF8.txt");
经过查看此文件,发现不带有BOM标头。。不是这个引起的。。
再查看此文件编码,发现是 GBK的,而它的XML标头,<?xml version="1.0" encoding="utf-8"?>,却表明是UTF8。。
至此,原因很明了,返回的XML实际上是GBK编码的,可是它的标头又显示是UTF8编码。。所以导致XML解析器以UTF8来解析,因此出错..
解决方案: 将返回的InputStream通过GBK编码转为STRING,再将此STRING通过UTF8编码转为InputStream,这样XML的实际编码和它的标头显示的编码就一至了..然后将此处理过的STREAM返回原程序调用,果然就OK了。。。。
String StrGbk=mole.io.filex.InputStreamToString(pStream, "GBK");
InputStream isUTF8=mole.io.filex.StringToInputStream(StrGbk, "UTF-8");
这段代码需要加在XmlRpcStreamTransport.java的readResponse()方法这里...虽然JAR包里也有此类,但源码里边的优先级更高,会加载源码中的此类。。