scrapy高阶技巧+++FilesPipeline和ImagesPipeline（文件下载）

最新推荐文章于 2024-05-16 11:47:28 发布

LKJLKJKL

最新推荐文章于 2024-05-16 11:47:28 发布

阅读量2.3k

点赞数 1

分类专栏： scrapy 文章标签： scrapy python 下载图片下载文件

本文链接：https://blog.csdn.net/LKJLKJKL/article/details/95049190

版权

本文介绍了Scrapy的FilesPipeline和ImagesPipeline的使用，详细阐述了这两个管道的工作流程，包括如何在spider中抓取文件链接、通过pipeline进行文件下载和处理。FilesPipeline用于下载各种文件，而ImagesPipeline在处理图像时还提供了格式转换、生成缩略图等附加功能。此外，它们都能避免重复下载，并可自定义存储位置。

摘要由CSDN通过智能技术生成

https://blog.csdn.net/qq_43537354/article/details/88360636
https://doc.scrapy.org/en/1.3/topics/media-pipeline.html

FilesPipeline的工作流如下：

1. 在spider中爬取要下载的文件链接，将其放置于item中的file_urls（注意这只是一个代名词就像数学中的x，他的值在配置项里面，可以自定义的）。
2. spider将其返回并传送至pipeline链。
3. 当FilesPipeline处理时，它会检测是否有file_urls字段，如果有的话，会将url传送给scarpy调度器和下载器。
4. 下载完成之后，会将结果写入item的另一字段files，files包含了文件现在的本地路径（相对于配置FILE_STORE的路径）、文件校验和checksum、文件的url

两个管道都实现了这些功能：

1.避免重新下载最近下载的媒体

2.指定存储介质的位置（文件系统目录）

3.图像管道具有一些用于处理图像的额外功能：

3.1 转换图片格式(jpg)和存储模式（RGB）

Convert all downloaded images to a common format (JPG) and mode (RGB)

；生成图像缩略图。

3.2 检查图像宽度/高度以确保它们符合最小约束；（需要在settings中配置）

最低0.47元/天解锁文章

LKJLKJKL

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
scrapy高阶技巧+++FilesPipeline和ImagesPipeline（文件下载）

https://blog.csdn.net/qq_43537354/article/details/88360636https://doc.scrapy.org/en/1.3/topics/media-pipeline.htmlFilesPipeline的工作流如下：1. 在spider中爬取要下载的文件链接，将其放置于item中的file_urls（注意这只是一个代名词就像数学中的...
复制链接

扫一扫

专栏目录