【python爬虫】动态加载页面的解决办法（以ins为例）

dawn_yue

于 2017-10-26 12:30:21 发布

阅读量2.1w

点赞数 10

分类专栏： python，instagram，爬虫，动态加载文章标签： instagram 爬虫 python 动态加载

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dawn_yue/article/details/78352335

版权

现在很多的web页面使用ajax技术动态加载页面。但对于爬虫来说，目标数据很可能不在页面HTML源码中（右键查看网页源代码，通过F12查找），针对静态页面的爬虫不再满足现在的需求。

很多教程都推荐用Selenium和PhantomJS配合使用，实现网页的渲染，得到网页的全部信息。但是对于爬虫程序，模拟浏览器内存开销实在是非常大，而且效率低。

好消息是，大多是是浏览器会在请求和解析HTML之后，根据js的“指示”再发送一次请求，得到页面展示的内容，然后通过js渲染之后展示到界面。这样的请求往往得到的内容是json格式的，所以我们非但不会加重爬虫的任务，反而可能会省去解析HTML的功夫。

本文以爬取instagram上的某位明星上传的全部图片为例讲解动态加载页面的解决办法。文末附上全部代码

工具：Chrome

包：json，requests，urllib

分析ins页面

某用户的主页

打开某用户ins主页（https://www.instagram.com/urnotchrislee/?hl=zh-cn）可以看到，首页只加载了12张图片，要点击“更多”才会加载更多的图片。我们先获取这12张图片的URL。

获取前12张图片的URL

首先检查源码中是否存在图片的URL。在script标签中发现前12张图片的URL。

网页源码

有了这个发现，我们就可以提取首页的12张图片URL！！

代码如下：

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。