scrapy高阶技巧+++FilesPipeline和ImagesPipeline(文件下载)

本文介绍了Scrapy的FilesPipeline和ImagesPipeline的使用,详细阐述了这两个管道的工作流程,包括如何在spider中抓取文件链接、通过pipeline进行文件下载和处理。FilesPipeline用于下载各种文件,而ImagesPipeline在处理图像时还提供了格式转换、生成缩略图等附加功能。此外,它们都能避免重复下载,并可自定义存储位置。
摘要由CSDN通过智能技术生成
https://blog.csdn.net/qq_43537354/article/details/88360636
https://doc.scrapy.org/en/1.3/topics/media-pipeline.html

FilesPipeline的工作流如下:

1. 在spider中爬取要下载的文件链接,将其放置于item中的file_urls(注意这只是一个代名词就像数学中的x,他的值在配置项里面,可以自定义的)。
2. spider将其返回并传送至pipeline链。
3. 当FilesPipeline处理时,它会检测是否有file_urls字段,如果有的话,会将url传送给scarpy调度器和下载器。
4. 下载完成之后,会将结果写入item的另一字段files,files包含了文件现在的本地路径(相对于配置FILE_STORE的路径)、文件校验和checksum、文件的url


两个管道都实现了这些功能:

1.避免重新下载最近下载的媒体

2.指定存储介质的位置(文件系统目录)

3.图像管道具有一些用于处理图像的额外功能:

            3.1 转换图片格式(jpg)和存储模式(RGB)

           Convert all downloaded images to a common format (JPG) and mode (RGB)

          ;生成图像缩略图。

            3.2 检查图像宽度/高度以确保它们符合最小约束;(需要在settings中配置)


                
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值