jsoup 获取文档不全的解决方法

最新推荐文章于 2021-02-16 22:17:15 发布

nonobabaya

最新推荐文章于 2021-02-16 22:17:15 发布

阅读量2.7k

点赞数

分类专栏： jsoup 文章标签： jsoup 截断文档

本文链接：https://blog.csdn.net/nonobabaya/article/details/84857411

版权

jsoup 专栏收录该内容

1 篇文章

订阅专栏

jsoup是个好东东，有了它，再也不用从底层开始解析html文档了，而且如果文档是xml或者json的，利用它做转换也是极好极方便的，而且如果你访问的url存在302跳转，他回直接解析跳转后的内容，太强大了，不过在解析html的时候我发现了一个问题，代码如下



 Document  doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true)..get();

            JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());

我发现返回的数据总是不全，大概是1024*1024的长度,我在浏览器直接调用此接口返回的文档是完整的，但是用jsoup确实半截文档，我怀疑jsoup的内部的问题，或来我调试追踪代码，追踪到如下文档，在HttpConnection中


dataStream = conn.getErrorStream() != null ? conn.getErrorStream() : conn.getInputStream();
                        bodyStream = res.hasHeaderWithValue(CONTENT_ENCODING, "gzip") ?
                                new BufferedInputStream(new GZIPInputStream(dataStream)) :
                                new BufferedInputStream(dataStream);

                        res.byteData = DataUtil.readToByteBuffer(bodyStream, req.maxBodySize());

玄机就在req.maxBodySize();中，我看了一下maxBodySize初始化的代码，原来默认的是1024*1024，so ga，终于找到问题原因了，直接把代码改成如下代码



 Document  doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true).maxBodySize(Integer.MAX_VALUE).get();

            JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());

运行ok，搞定