在写爬虫的时候需要下载一个页面上的附件,比如http://www.jsqts.gov.cn/zjxx/... 这个网站上面的附件,但是直接用jsoup抓取页面的话html里什么都没有,百度了之后知道好多内容是js动态加载的,于是使用了httpunit,模拟浏览器执行完js,但是返回的页面还是不包含附件信息,代码如下:
String url = "http://www.jsqts.gov.cn/zjxx/GovInfoPub/Department/showinfo.aspx?InfoID=4a6f06c1-2a1b-40f9-bbfe-caafc0100428&CategoryNum=001010";
WebClient webClient = new WebClient(BrowserVersion.CHROME);
//设置webClient的相关参数
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setActiveXNative(false);
webClient.getOptions().setCssEnabled(false);
webClient.waitForBackgroundJavaScript(600*1000);
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
//模拟