【系列】scrapy启动流程源码分析(1)命令行启动

最新推荐文章于 2024-08-06 10:59:23 发布

csdn_yym

最新推荐文章于 2024-08-06 10:59:23 发布

阅读量1.7k

点赞数

分类专栏： Python 爬虫文章标签： scrapy python 爬虫

本文链接：https://blog.csdn.net/csdn_yym/article/details/85420528

版权

本文详细解析了Scrapy爬虫框架通过命令行启动的流程，从输入命令开始，逐步剖析`execute()`方法、`get_project_settings()`以及`crawl`命令的执行过程，阐述了CrawlerProcess在Scrapy运行中的核心地位，以及配置文件`scrapy.cfg`的加载逻辑。

摘要由CSDN通过智能技术生成

前言

虽然爬虫的入门级编写并不难，但要让爬虫真正稳定可靠的运行起来，真不是一件容易的事。
首先，要用到scrapy，就必须要读懂scrapy这个爬虫框架，如果连这个框架的执行逻辑都搞不懂，那么爬虫也很难写好。
下面，我将粗略研究一遍scrapy源码，把scrapy的启动和运行过程捋一遍。

1.命令行启动

这里先不谈使用了各种框架的复杂情况，比如scrapyd服务、redis分布式队列等。只看最简单的情况，假设只写了几个简单爬虫spider（中间件和管道写不写无影响）。

输入命令

通过命令行运行其中的某一个spider：

$ scrapy crawl myspider

首先，命令里的scrapy是一个可执行文件，后面的crawl myspider是scrapy的参数。
可执行文件scrapy在/usr/local/python/bin目录里，是一个python脚本，有效代码为：

from scrapy.cmdline import execute
if __name__ == '__main__':
    sys.argv[0] = re.sub(r'(-script\.pyw?|\.exe)?$', '', sys.argv[0])
    sys.exit(execute())

这个文件的作用就是从命令行里读取命令，然后传递给scrapy.cmdline包的execute()方法进行下一步操作。

execute()方法

从python的第三方库目录里找到scrapy/cmdline.py文件，可以看到代码中有execute()方法（为了压缩篇幅，这里删掉了无关紧要的代码）：

def execute(argv=None, settings=None):
    if argv is None:
        argv = sys.argv
        
    if settings is None:
        settings = get_project_settings()
        # set EDITOR from environment if available
        try:
            editor = os.environ['EDITOR']
        except KeyError: pass
        else:
            settings['EDITOR'] = editor
    check_deprecated_settings(settings)

    inproject = inside_project()
    cmds = _get_commands_dict(settings, inproject)
    cmdname = _pop_command_name(argv)
    parser = optparse