scrapy将爬取下来的图片存储到AWS 的 S3 bucket上. 一.在settings里面配置AWS 现有的scrapy还不支持boto3,只有boto,但我还是加上了AWS这些参数(在boto3里是必需的). PS:自建MinIO,只需要增加一条:AWS_ENDPOINT_URL = ‘http://minio.example:9000’ 二. 你需要改写 ImageDownloadPipeline类 1.其中会有几个方法比较重要,第一是 get_media_requests 请求下载图片方法,不改写的话维持默认 2. file_path, 意指存储位置的方法,命名文件名和储存位置. 3. item_completed 图片下载完成的操作,如统计图片名字和存储位置. 官方文档位置 除了以上你还可以不用scrapy自带的,自己使用boto3上传图片,缺点是不能原生image下载pipeline(用aiohttp下载图片,配合boto3应该也能达到原生的效果).