Scrapy用ImagePipeline爬取网页图片

最新推荐文章于 2024-03-22 08:12:01 发布

Wilson_Iceman

最新推荐文章于 2024-03-22 08:12:01 发布

阅读量3.9k

点赞数

分类专栏：爬虫文章标签：网络爬虫 ImagePipeline Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wilson_Iceman/article/details/79200796

版权

本文介绍如何利用Scrapy的ImagePipeline组件高效地爬取并处理网页图片，包括图片格式转换、避免重复下载、生成缩略图和自动过滤图片大小等功能。在Scrapy项目中，只需将图片URL放入item的image_urls字段，ImagePipeline会负责后续的下载和存储工作。

摘要由CSDN通过智能技术生成

之前的那个系列文章只是讲到了如何使用Scrapy来爬取文本数据，今天我们来介绍如何用Scrapy来爬取图片数据。

Scrapy爬取图片数据需要用到ImagePipeline这个类，此类提供一种方便的方式来下载和存储图片，待会大家看例子的时候就可以看到爬取图片要比爬取文本简单的多，这当然要归功于ImagePipeline这个类。

这个类的主要特征如下：

将下载图片转换成通用的JPG和RGB文件格式
避免重复下载
可以生成缩略图
图片大小可以实现自动过滤

下面我们来看一下ImagePipeline的工作流程

爬取一个item，将图片的urls存入image_urls字段
从Spider返回的item，传递到Item Pipeline，

当Item传递到ImagePipeline后，将调用Scrapy调度器和下载器完成image_urls中的URL的调度和下载。ImagePipeline会自动高优先级抓取这些url，与此同时，item会被锁定直到图片抓取完毕才解锁。

这些图片下载完成后，图片下载路径、url和校验等信息会被填充到images字段中。

好了，让我们赶紧开始吧。

启动一个项目，项目名称为douban_img

scrapy startproject douban_img

最低0.47元/天解锁文章

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。