- 博客(1)
- 资源 (6)
- 收藏
- 关注
原创 dom4j的乱码问题
1)背景长期运行的爬虫程序(抓取xml)突然出了问题。xml的乱码导致无法验证通过2)乱码是怎么产生的发现不同的网站返回的xml编码不一致,有的是gb2312,有的utf-8。爬虫程序将urlConnection.getInputStream() 的字节流传递给了SAXReader来构造Document可惜SAXReader还不够强悍,由于只是获取了字节流,但不知道编码方式,于是SAXReader采用了系统默认的编码方式对对待字节流,问题就出在这里。3) 未指定编码,SAXReader如何处理字节流org.
2011-01-20 21:22:00 3838
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人