在上一篇博客中,简单的介绍了系统自带的管道保存方法,今天来讲一下如何用自定义的管道来保存文件以及图片。
1.保存图片:
开始的步骤,保持不变,成功获取数据后,进入到pipeline.py里面,引入 from scrapy.pipelines.images import ImagesPipeline, 并且继承 ImagesPipeline (如下图):
import scrapy
# ImagesPipeline 系统中下载图片的管道
from scrapy.pipelines.images import ImagesPipeline
# 系统管道有下载图片的功能,我们的管道继承了系统的管道,也有了下载图片的功能
class ZhanzhangPipeline(ImagesPipeline):
def get_media_requests(self, item, info):
print('管道方法执行了')
# print(item['title'])
# print(item['img'])
# 这个方法会循环执行
# 前边每次会传入一个个item,这个item会被交给了引擎,
# 引擎又交给了管道来运行,管道里面有很多方法
# 这些方法会依次执行
yield scrapy.Request(url=item['img'][0],meta={'item':item})
# 管道里面提供了一系列的内置方法,这下方法会自动从第一个执行到最后一个
然后设置保存的路径以及图片名称:
def file_path(self, request, response=None, info=None):
print('====================')
item = request.meta['item']
print(item['title'])
print(item['img'])
# 设置