4.Scheduler调度器
对ExecutionEngine执行引擎篇出现的Scheduler进行展开。Scheduler用于控制Request对象的存储和获取,并提供了过滤重复Request的功能。
Scheduler对象
scheduler对象是通过类的from_cralwer方法生成的。
scrapy/core/scheduler.py#Scheduler:
rom_crawler(cls, crawler):
settings = crawler.settings
dupefilter_cls = load_object(settings['DUPEFILTER_CLASS'])
dupefilter = dupefilter_c