java基于windows爬取ajax加载的动态页面需要一定的辅助工具支持,本文爬取ajax加载的动态页面所使用的工具是phantomJS(关于phantomJS的介绍百度一大堆)
下载之后解压文件,为了后面方便使用建议单独放在一个文件夹里面,例如我这边是放在F盘下面单独的文件夹phantomjs,然后进入phantomjs--bin点击运行phantomjs.exe,出现一下界面:
即表示可以正常运行js代码了。(如果要经常使用建议配置path环境)
接下来就是爬取页面了。
首先需要写一个js(例:parser.js):
1 system = require('system')2 address = system.args[1];3 var page = require('webpage').create();4 var url =address;5
6 page.settings.resourceTimeout = 1000*10; //10 seconds
7 page.onResourceTimeout = function(e) {8 console.log(page.content);9 phantom.exit(1);10 };11
12 page.open(url, function(status) {13 //Page is loaded!
14 if (status !== 'success') {15