Python爬虫 | 爬取高质量小姐姐照片
1、数据来源分析
在网页HTML源代码里,我们找到了每一张照片的地址为
https://photo.tuchong.com/5489136/f/360962642.jpg
解析如下
https://photo.tuchong.com/author_id_list/f/img_id.jpg
其中author_id_list和img_id都是我们需要自己获取的
2、获取author_id_list和img_id
打开网站图虫网首页,经过分析,发现数据请求是动态加载的来源是下面的请求
返回的数据中包含author_id_list和img_id,一个author_id_list对应好几个img_id,因此在获取数据的时候对每一个author_id_list下的图片进行单独保存,建立独立的文件夹
3、制作detial
将每一个author_id_list和img_id保存到一个detial中,利用键值对的形式,author_id_list存放author_id_list,img_id存放img_id
4、制作detial_list
将每一个detial存放在detial_list,那么第一页的所需数据就准备好了
5、数据保存
对每一个author_id建立应的文件夹
6、批量获取
前面的请求参数有page和count,表示请求页数和每一页的数据量,将page放在循环中就行了
7、完整代码
import requests
import os
if __name__ == '__main__':
headers = {