【爬虫作业】使用scrapy批量爬取头像,并通过redis进行去重

前情提要

小伙伴们期待已久的爬虫作业栏目,终于又更新啦。本次的程序,是自动设置头像的爬虫程序的一种升级应用版本,基本的思路是,通过遍历用户头像,就可以保存大量的头像了

至于保存到哪里呢?在这个程序的准备工作中考虑过保存到第三方图床上或者是使用oss对象存储功能。不过最后还是采用了直接保存为文件。下次有机会的话,再用其他方式吧

实现分析

首先,第一个部分就是发起请求,然后保存图片。这个功能在上一次的程序中已经实现过了

def save_img(qq_number):
    base_url = "aHR0cHM6Ly9xbG9nbzQuc3RvcmUucXEuY29tL3F6b25lLw=="
    url = b64decode(base_url).decode() + str(qq_number) + "/" + str(qq_number) + "/" + "640"
    headers = {"user-agent": "Mozilla/5.0"}
    r = requests.get(url, headers=headers)
    with open(str(qq_number) + ".png", "wb") as f:
        f.write(r.content)

问题在于,如果批量爬取头像的话,就不能采用这种直接保存的方式。主要原因在于

  • 9
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值