jsoup 获取文档不全的解决方法

jsoup是个好东东,有了它,再也不用从底层开始解析html文档了,而且如果文档是xml或者json的,利用它做转换也是极好极方便的,而且如果你访问的url存在302跳转,他回直接解析跳转后的内容,太强大了,不过在解析html的时候我发现了一个问题,代码如下



Document doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true)..get();

JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());


我发现返回的数据总是不全,大概是1024*1024的长度,我在浏览器直接调用此接口返回的文档是完整的,但是用jsoup确实半截文档,我怀疑jsoup的内部的问题,或来我调试追踪代码,追踪到如下文档,在HttpConnection中

dataStream = conn.getErrorStream() != null ? conn.getErrorStream() : conn.getInputStream();
bodyStream = res.hasHeaderWithValue(CONTENT_ENCODING, "gzip") ?
new BufferedInputStream(new GZIPInputStream(dataStream)) :
new BufferedInputStream(dataStream);

res.byteData = DataUtil.readToByteBuffer(bodyStream, req.maxBodySize());

玄机就在req.maxBodySize();中,我看了一下maxBodySize初始化的代码,原来默认的是1024*1024,so ga,终于找到问题原因了,直接把代码改成如下代码



Document doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true).maxBodySize(Integer.MAX_VALUE).get();

JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());


运行ok,搞定
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值