【爬虫作业】使用scrapy批量爬取头像，并通过redis进行去重

最新推荐文章于 2023-08-14 17:26:41 发布

仙草哥哥

最新推荐文章于 2023-08-14 17:26:41 发布

阅读量1.6k

点赞数 9

分类专栏：爬虫作业文章标签：爬虫 python scrapy

本文链接：https://blog.csdn.net/sagegrass/article/details/125684121

版权

前情提要

小伙伴们期待已久的爬虫作业栏目，终于又更新啦。本次的程序，是自动设置头像的爬虫程序的一种升级应用版本，基本的思路是，通过遍历用户头像，就可以保存大量的头像了

至于保存到哪里呢？在这个程序的准备工作中考虑过保存到第三方图床上或者是使用oss对象存储功能。不过最后还是采用了直接保存为文件。下次有机会的话，再用其他方式吧

实现分析

首先，第一个部分就是发起请求，然后保存图片。这个功能在上一次的程序中已经实现过了

def save_img(qq_number):
    base_url = "aHR0cHM6Ly9xbG9nbzQuc3RvcmUucXEuY29tL3F6b25lLw=="
    url = b64decode(base_url).decode() + str(qq_number) + "/" + str(qq_number) + "/" + "640"
    headers = {"user-agent": "Mozilla/5.0"}
    r = requests.get(url, headers=headers)
    with open(str(qq_number) + ".png", "wb") as f:
        f.write(r.content)

问题在于，如果批量爬取头像的话，就不能采用这种直接保存的方式。主要原因在于