java jsoup爬取动态网页_java网络爬虫-利用phantomjs和jsoup爬取动态ajax加载页面

本文介绍了如何使用Java结合PhantomJS来爬取动态加载的AJAX页面。首先,详细说明了PhantomJS的下载、安装和配置过程,然后展示了如何编写JavaScript脚本解析页面内容。接着,给出了Java代码示例,演示了如何调用PhantomJS执行JS脚本获取动态HTML,并利用Jsoup进行解析。最后,提供了读取文本和下载图片到本地的示例代码。
摘要由CSDN通过智能技术生成

java基于windows爬取ajax加载的动态页面需要一定的辅助工具支持,本文爬取ajax加载的动态页面所使用的工具是phantomJS(关于phantomJS的介绍百度一大堆)

下载之后解压文件,为了后面方便使用建议单独放在一个文件夹里面,例如我这边是放在F盘下面单独的文件夹phantomjs,然后进入phantomjs--bin点击运行phantomjs.exe,出现一下界面:

ea89cb9d96d4ac30d575948cf371ce93.png

即表示可以正常运行js代码了。(如果要经常使用建议配置path环境)

接下来就是爬取页面了。

首先需要写一个js(例:parser.js):

1 system = require('system')2 address = system.args[1];3 var page = require('webpage').create();4 var url =address;5

6 page.settings.resourceTimeout = 1000*10; //10 seconds

7 page.onResourceTimeout = function(e) {8 console.log(page.content);9 phantom.exit(1);10 };11

12 page.open(url, function(status) {13 //Page is loaded!

14 if (status !== 'success') {15

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值