python爬取动态页面并保存_第十讲:Python爬取网页图片并保存到本地,包含次层页面...

上一讲我们讲到了从昵图网的首页下载图片到本地,但是我们发现首页上面的大部分链接其实都可以进入到二级页面。

在二级页面里面,我们也可以同样进行图片的下载,通过层层循环我们可以把网址的一部分图片下载到本地(有些图片的链接是动态的,而且网站也会检测盗链等反爬虫设置,这个后续再讲)。

首先,我们整理下思路,在首页这里爬取图片的思路如下:

1、通过首页的地址获取首页的源代码

2、分析源代码中图片的链接地址,根据这个地址格式来组装正则表达式

3、根据正则表达式来批量匹配图片地址

4、根据匹配的地址进行循环下载到本地。

借鉴上面的思路,我们在二级页面同样可以使用这些步骤,只需要把首页的地址更换成二级页面的地址。

那么,二级页面的地址我们在首页的源码分析的时候可以直接获取,存在另外一个列表(现在为止有两个列表了,一个是用来存储页面的二级链接的,一个是用来存储本页面的图片地址的)。

由于我们爬取图片的功能都是可以反复调用的,所以我们把这部分的代码提取成一个函数。

最终代码如下:

7a0b1084f499446b1be2e5d8f8077bc0.png

运行效果如下:

f4444131a8053b27ba97f27d8376f9c5.png

c74feebf19d4c117faff3daa4480084b.png

图片会一直下载。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值