Scrapy:一次性运行多个Spiders

陈小峰_iefreer

于 2014-03-07 10:39:12 发布

阅读量2w

点赞数

分类专栏： Web Scrapy Python 文章标签： Scrapy Spider Cronjob Python

本文链接：https://blog.csdn.net/iefreer/article/details/20677943

版权

Web 同时被 3 个专栏收录

345 篇文章 3 订阅

订阅专栏

Python

10 篇文章 0 订阅

订阅专栏

Scrapy

9 篇文章 0 订阅

订阅专栏

如果创建了多个Spider，希望通过cronjob一次性运行所有的Spiders，可以通过自定义Scrapy命令来实现。

具体方法来自 techbrood.com 网站聚合引擎的实践。

1. 在你的Scrapy工程下面新建一个目录：

cd path/to/your_project

mkdir commands

注意这个commands和spiders目录是同级的

2. 在commands下面添加一个文件crawlall.py，代码如下：

from scrapy.command import ScrapyCommand
from scrapy.utils.project import get_project_settings
from scrapy.crawler import Crawler

class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):
        return '[options]'

    def short_desc(self):
        return 'Runs all of the spiders'

    def run(self, args, opts):
        settings = get_project_settings()

        for spider_name in self.crawler.spiders.list():
            crawler = Crawler(settings)
            crawler.configure()
            spider = crawler.spiders.create(spider_name)
            crawler.crawl(spider)
            crawler.start()

        self.crawler.start()

3. 在settings.py中添加配置：

COMMANDS_MODULE = 'yourprojectname.commands'

4. 在cronjob中添加：scrapy crawlall命令即可

by iefreer