htmlunit爬取javascript、Ajax 动态生成的网页；jsoup解析XML文档

bencpp

于 2015-10-15 01:26:33 发布

阅读量3.3k

点赞数

分类专栏： web开发随笔文章标签： javascript Htmlunit

本文链接：https://blog.csdn.net/u010257671/article/details/49137221

版权

本文介绍了如何利用Htmlunit库在Java中爬取依赖JavaScript和Ajax动态生成的网页，以及使用jsoup解析XML文档。在配置WebClient时，启用JavaScript支持并设置Ajax控制器以同步执行Ajax请求。在遇到网页加载异常时，可以尝试直接获取Ajax请求的URI获取XML数据，并用jsoup进一步处理。

摘要由CSDN通过智能技术生成

最近接到一个项目，需要爬取一个网站的生成的xml数据。

刚开始时，觉得这是一个非常容易的事情，以前也用过htmlunit爬取网站。但是写完代码发现连登陆都进不了，何谈爬取数据了。不说直接上代码：

final WebClient webClient = new WebClient(BrowserVersion.INTERNET_EXPLORER_9);// 设置浏览器类型，由于涉及的项目网站只支持ie，所以设置ie9

// htmlunit 对css和javascript的支持不好，所以请关闭之
webClient.getOptions().setCssEnabled(false);
webClient.getOptions().setJavaScriptEnabled(true);//javaScript 一定要打开，否则解析不了js代码
webClient.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时，是否抛出异常
webClient.setAjaxController(new NicelyResynchronizingAjaxController()); // 设置 Ajax控制器，同步执行ajax代码

一下这段代码的意思是，在无法获取网页执行完Ajax的结果，可以考虑直接拼凑 ajax 执行的URI ，从而获得XML格式的数据，再用jsoup进行解析即可得到数据；