今天在写一个爬虫的时候遇到了一个问题,就是在使用Jsoup获取html时只能解析静态的页面,只要是页面中与js相关的动态数据都是不能够爬取到的,在网上搜索了些资料后发现能够使用htmlunit来解决这个问题
- 参考资料:http://www.cnblogs.com/cation/p/3933408.html
- jar包下载:http://sourceforge.net/projects/htmlunit/files/htmlunit/
- 简单使用:
// 创建模拟浏览器,参数可以指定不同类型的浏览器
WebClient webClient = new WebClient();
// 启用JS解释器,默认为true
webClient.getOptions().setJavaScriptEnabled(true);
// 禁用css支持
webClient.getOptions().setCssEnabled(false</