纯属笔记
自定义pipeline:
imagePipeline:
get_media_requests #获取item yield出来
file_path #对图片的地址进行加密,然后将加密后的字符串当做图片的名称(可以自己定义图片的名称 可以从item中携带图片分类名称进行图片分类存储),然后return出来
item_completd
return item
#每个item最终都会经过item_completed, 也就是意味着有几个item这个item_completed就会调用几次(不管下载成功还是失败都会调用), 如果不重写该方法,item会默认返回出去, item_completed里面return出去的item是经过整个项目管道处理完成之后的最终的一个item
# 提示信息: 如果下载成功: True:图片下载成功; url:图片的地址; path:图片的存储路径; checksum:图片内容的md5 hash 加密字符串
下载失败: False: 下载失败 ; error: 下载失败的原因 如果下载失败 则取不到item_path 说明对应的item有问题
filePipeline:
open_spider(self, spider)
爬虫开启的时候调用 该函数只会运行一次
参数 spider: 爬虫对象
process_item(self,item,spider) 如果要自定义一个Pipeline, 这个方法必须实现
return item #process_it