scrapy AWS图片存储

本文介绍如何配置Scrapy将爬取的图片保存至AWS S3或自建MinIO,涉及settings配置、ImageDownloadPipeline类改写及使用boto3上传图片的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

scrapy将爬取下来的图片存储到AWS 的 S3 bucket上.

一.在settings里面配置AWS

现有的scrapy还不支持boto3,只有boto,但我还是加上了AWS这些参数(在boto3里是必需的).在这里插入图片描述
PS:自建MinIO,只需要增加一条:AWS_ENDPOINT_URL = ‘http://minio.example:9000’

二. 你需要改写 ImageDownloadPipeline类

1.其中会有几个方法比较重要,第一是 get_media_requests 请求下载图片方法,不改写的话维持默认
2. file_path, 意指存储位置的方法,命名文件名和储存位置.
3. item_completed 图片下载完成的操作,如统计图片名字和存储位置.
官方文档位置
除了以上你还可以不用scrapy自带的,自己使用boto3上传图片,缺点是不能原生image下载pipeline(用aiohttp下载图片,配合boto3应该也能达到原生的效果).
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笑笑布丁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值