scrapy：ImagesPipeline

最新推荐文章于 2024-08-25 19:25:08 发布

缦旋律

最新推荐文章于 2024-08-25 19:25:08 发布

阅读量282

点赞数

分类专栏： scrapy

小陈一行一行地敲出来的啦~

本文链接：https://blog.csdn.net/weixin_41391619/article/details/111825751

版权

本文介绍了如何使用Scrapy的ImagesPipeline来抓取网页中的图片。通过在爬虫文件中解析图片URL，封装到item，然后提交到自定义的ImagesPipeline。在pipeline中，重写三个关键方法：get_media_requests发送请求，file_path定义图片存储名，item_completed处理保存后的item。最后，配置settings.py以启用ImagesPipeline。

摘要由CSDN通过智能技术生成

作用：只需要将img的src属性值从原网页中解析出，封装到item、并提交给管道，管道就会自动对图片的src发送请求、获取图片的二进制数据，并进行持久化存储
步骤：
1.爬虫文件中解析出图片的src,封装到item中，把item提交给管道
2.pipelines.py中重新定义一个管道类（原来的要删掉），该类继承自ImagesPipeline
在新定义的管道类中要重写三个函数：
a. get_media_requests(self, item, info) 用于对src发送请求
b. file_path(self,requst,response=None,info=None) 返回图片的名称（该名称会被用于形成图片存储路径）
c. item_completed(self, results, item, info) 将item返回给下一个即将被执行的管道
```
  3.settings.py中添加 IMAGES_STORE = 'XXX' 比如你上一步b中返回的名字是wyb.jpg,那么你这张照片在本地最终的存储位置就是xxx/wyb.jpg
  4.如果第二步中你自定义的管道类与之前的管道类的名字不一样，那么还需要在settings.py中把管道的名字改成你自定义的那个
```
爬虫文件中的代码：

import scrapy
from imgsPro.items import ImgsproItem

class ImgSpiderSpider(scrapy.Spider):
    name = 'img_spider'
    start_urls =

最低0.47元/天解锁文章

缦旋律

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录