【系列】scrapy启动流程源码分析(2)CrawlerProcess主进程

最新推荐文章于 2024-06-25 14:13:41 发布

csdn_yym

最新推荐文章于 2024-06-25 14:13:41 发布

阅读量1.7k

点赞数 2

分类专栏： Python 爬虫文章标签： scrapy python 爬虫

本文链接：https://blog.csdn.net/csdn_yym/article/details/85423656

版权

本文详细分析了Scrapy的CrawlerProcess主进程，包括其初始化、创建Crawler对象、执行引擎的创建等步骤。CrawlerProcess控制Twisted reactor并启动事件循环，同时管理爬取任务的信号操作。Crawler对象代表一次爬取任务，而CrawlerProcess可以处理多个任务。文章深入探讨了Crawler的初始化、创建spider对象以及ExecutionEngine的启动过程，揭示了Scrapy爬虫运行的内在机制。

摘要由CSDN通过智能技术生成

2.CrawlerProcess主进程

它控制了twisted的reactor，也就是整个事件循环。它负责配置reactor并启动事件循环，最后在所有爬取结束后停止reactor。
另外还控制了一些信号操作，使用户可以手动终止爬取任务。

此类在scrapy/crawler.py中定义，此模块有三个类：Crawler、CrawlerRunner和CrawlerProcess。
Crawler代表了一种爬取任务，里面使用一种spider，CrawlerProcess可以控制多个Crawler同时进行多种爬取任务。
CrawlerRunner是CrawlerProcess的父类，CrawlerProcess通过实现start方法来启动一个Twisted的reactor（另有shutdown信号处理、顶层logging功能）。

下面按照执行顺序一步步分析。

CrawlerProcess初始化

首先在命令行启动调用crawl()和start()运行之前，就已经建立了CrawlerProcess对象。

scrapy/crawler.py#CrawlerProcess:

class CrawlerProcess(CrawlerRunner):
    def __init__(self, settings=None, install_root_handler=True):
        super(CrawlerProcess, self).__init__(settings)
        install_shutdown_handlers(self._signal_shutdown)
        configure_logging(self.settings, install_root_handler)
        log_scrapy_info(self.settings)

初始化动作有：
1.使用settings初始化父类CrawlerRunner，只是定义了一些空变量。
2.注册shutdown信号。
3.配置顶层logging。

CrawlerProcess.crawl()创建Crawler对象

在运行前调用了crawl()方法。

scrapy/crawler.py#CrawlerRunner:

    def crawl(self, crawler_or_spidercls, *args, **kwargs):
        crawler = self.create_crawler(crawler_or_spidercls)
        return self._crawl(crawler, *args, **kwargs)

    def _crawl(self, crawler, *args, **kwargs):
        self.crawlers.add(crawler)
        d = crawler.crawl(*args, **kwargs)
        self._active.add(d)
        def _done(result):
            self.crawlers.discard(crawler)
            self._active.discard(d)
            return result
        return d.addBoth(_done)

    def