scrapy Pipeline类(笔记)

Pipeline基础类


```python
class FirstPipeline:
	def _init_(self):
		#初始化
		pass

	def open_spider(self,spider):
		#开始爬虫时执行一次
		pass
		
    def process_item(self, item, spider):
        # 对item进行处理
        return item

	def close_spider(self,spider):
		#结束爬虫时执行一次
		pass

图片处理管道类ImagesPipeline

导入的库

from scrapy.pipelines.images import ImagesPipeline

类对图片的处理

# 用于下载存储图片的管道处理类
class ImgPipeline(ImagesPipeline):
    # 从item中获得目标图片的URL,并发送请求
    def get_media_requests(self, item, info):
    	self.name = item["name"] + ".jpg"
        yield scrapy.Request(item["src"])

    # 指定文件存储路径
    def file_path(self, request, response=None, info=None):
        #设置图片保存路径,自动创建一个测试
        return "测试图片/" + self.name

    # 返回item对象
    def item_completed(self, results, item, info):
        # 图片下载路径、url和校验和等信息
        print(results)
        return item
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值