上一节讲了CrawlProcess的实现,讲了一个CrawlProcess可以控制多个Crawler来同时进行多个爬取任务,CrawlProcess通过调用Crawler的crawl方法来进行爬取,并通过_active活动集合跟踪所有的Crawler.
这一节就来详细分析一下Crawler的源码。
先分析构造函数的关键代码:
scrapy/crawler.py:
class Crawler(object): def __init__(self, spidercls, settings=