Pipeline基础类
```python
class FirstPipeline:
def _init_(self):
#初始化
pass
def open_spider(self,spider):
#开始爬虫时执行一次
pass
def process_item(self, item, spider):
# 对item进行处理
return item
def close_spider(self,spider):
#结束爬虫时执行一次
pass
图片处理管道类ImagesPipeline
导入的库
from scrapy.pipelines.images import ImagesPipeline
类对图片的处理
# 用于下载存储图片的管道处理类
class ImgPipeline(ImagesPipeline):
# 从item中获得目标图片的URL,并发送请求
def get_media_requests(self, item, info):
self.name = item["name"] + ".jpg"
yield scrapy.Request(item["src"])
# 指定文件存储路径
def file_path(self, request, response=None, info=None):
#设置图片保存路径,自动创建一个测试
return "测试图片/" + self.name
# 返回item对象
def item_completed(self, results, item, info):
# 图片下载路径、url和校验和等信息
print(results)
return item