项目地址:
https://github.com/Lee991211/Innovation_training.git
上一部分讲到了项目的spider部分,今天我们来看一下中间件以及管道部分。
middlewares
下载器中间件是介入到Scrapy的spider处理机制的钩子框架,您可以添加代码来处理发送给 Spiders 的response及spider产生的item和request。
对于中间件更详细的编辑介绍,请关注scrapy官方文档的更新
https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spider-middleware.html
spider middlewares类
编写spider中间件十分简单。每个中间件组件是一个定义了以下一个或多个方法的Python类:
from_crawler() 用于根据传入的参数和 crawler 对象来生成 scheduler,使得
scheduler有crawler的属性和配置。
def from_crawler(cls, crawler):
# This method is used by Scrapy to create your spiders.
s = cls()
crawler.signals.connect(s.spider_opened, signal=signals.spider_op