1、数据来源分析
打开斗图吧的主页,发现网址非常有规律,通过页码数控制下一页的改变
页数 | 网址 |
---|---|
第一页 | https://www.doutub.com/img_lists/new/1 |
第二页 | https://www.doutub.com/img_lists/new/2 |
并且,每张图片都是存在在div标签中的,因此首先要找到外层的div,最后对每一个img标签的src属性进行请求就行了
2、制作div_list
利用xpath在网页中容易得到每一个div_list
每一页共有50,也就意味着有50个表情包
3、发起请求
利用循环,获取每一个div中获取img标签的src属性,并直接进行图片获取,并保存
4、保存图片
将图片按照页码建立文件夹
5、批量获取
利用循环,构造如下url即可
https://www.doutub.com/img_lists/new/{i]
6、完整代码
import requests