scrapy AWS图片存储

最新推荐文章于 2022-11-30 21:44:06 发布

笑笑布丁

最新推荐文章于 2022-11-30 21:44:06 发布

阅读量676

点赞数

分类专栏： scrapy 爬虫 aws 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40244755/article/details/104170481

版权

爬虫同时被 3 个专栏收录

43 篇文章

订阅专栏

26 篇文章

订阅专栏

1 篇文章

订阅专栏

本文介绍如何配置Scrapy将爬取的图片保存至AWS S3或自建MinIO，涉及settings配置、ImageDownloadPipeline类改写及使用boto3上传图片的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scrapy将爬取下来的图片存储到AWS 的 S3 bucket上.

一.在settings里面配置AWS

现有的scrapy还不支持boto3，只有boto，但我还是加上了AWS这些参数(在boto3里是必需的).

PS：自建MinIO，只需要增加一条：AWS_ENDPOINT_URL = ‘http://minio.example:9000’

二. 你需要改写 ImageDownloadPipeline类

1.其中会有几个方法比较重要，第一是 get_media_requests 请求下载图片方法，不改写的话维持默认

2. file_path，意指存储位置的方法，命名文件名和储存位置.

3. item_completed 图片下载完成的操作，如统计图片名字和存储位置.

官方文档位置

除了以上你还可以不用scrapy自带的，自己使用boto3上传图片，缺点是不能原生image下载pipeline(用aiohttp下载图片，配合boto3应该也能达到原生的效果).

博客等级

码龄8年

177
原创

853
点赞

1389
收藏

515
粉丝

关注

私信

热门文章

分类专栏

最新评论

docker build速度过慢问题
甘乐味.: 有用，好牛
langchain v0.3更新了什么？
萌朱佩琪: 我升级后，一直出现AttributeError: module 'langchain' has no attribute 'debug'问题，不知道怎么解决
execjs._exceptions.ProcessExitedWithNonZeroStatus
China_doki: 会不会是因为node的版本太低了啊
execjs._exceptions.ProcessExitedWithNonZeroStatus
China_doki: 我在单独在终端运行python文件和js文件都能成功，但是用fastapi调用就会报错，然后返回 Internal Server Error，状态码也变成500
execjs._exceptions.ProcessExitedWithNonZeroStatus
China_doki: 大佬，我这个是什么问题：File "/www/server/pyporject_evn/Hrad_Rock_Hotel_Penang_venv/lib/python3.10/site-packages/execjs/_external_runtime.py", line 134, in _fail_on_non_zero_status raise ProcessExitedWithNonZeroStatus(status=status, stdout=stdoutdata, stderr=stderrdata) execjs._exceptions.ProcessExitedWithNonZeroStatus: (127, '', '/bin/node: relocation error: /lib64/libnode.so.93: symbol FIPS_selftest, version OPENSSL_1_1_0g not defined in file libcrypto.so.1.1 with link time reference\n')

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

笑笑布丁 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。