scrapy----自定义Pipeline

本文为Scrapy自定义Pipeline的笔记,详细介绍了imagePipeline和filePipeline的使用,包括get_media_requests方法、file_path方法、item_completed方法以及process_item方法在爬虫开启、关闭时的调用情况和作用。
摘要由CSDN通过智能技术生成

     纯属笔记

自定义pipeline:
    imagePipeline:
        get_media_requests      #获取item yield出来


        file_path       #对图片的地址进行加密,然后将加密后的字符串当做图片的名称(可以自己定义图片的名称  可以从item中携带图片分类名称进行图片分类存储),然后return出来


        item_completd   

            return item

         #每个item最终都会经过item_completed, 也就是意味着有几个item这个item_completed就会调用几次(不管下载成功还是失败都会调用), 如果不重写该方法,item会默认返回出去, item_completed里面return出去的item是经过整个项目管道处理完成之后的最终的一个item

                   # 提示信息: 如果下载成功: True:图片下载成功;  url:图片的地址; path:图片的存储路径; checksum:图片内容的md5 hash 加密字符串

                                      下载失败: False: 下载失败 ;  error: 下载失败的原因        如果下载失败 则取不到item_path 说明对应的item有问题

 

    filePipeline:
        open_spider(self, spider) 

              爬虫开启的时候调用 该函数只会运行一次

              参数 spider: 爬虫对象


        process_item(self,item,spider)  如果要自定义一个Pipeline, 这个方法必须实现

             return item  #process_it

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值