python 断点续爬_scrapy爬虫之断点续爬和多个spider同时爬取

最新推荐文章于 2022-09-18 15:06:40 发布

莲池书院

最新推荐文章于 2022-09-18 15:06:40 发布

阅读量669

点赞数

文章标签： python 断点续爬

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30866939/article/details/114399296

版权

from scrapy.commands import ScrapyCommand

from scrapy.utils.project import get_project_settings

#断点续爬scrapy crawl spider_name -s JOBDIR=crawls/spider_name

#运行命令scrapy crawlall

class Command(ScrapyCommand):

requires_project = True

def syntax(self):

return '[options]'

def short_desc(self):

return 'Runs all of the spiders'

def run(self, args, opts):

spider_list = self.crawler_process.spiders.list()

for name in spider_list:

self.crawler_process.crawl(name, **opts.__dict__)

self.crawler_process.start()

多个spider同时运行

新建命令文件夹commands,目录下新建crawlall.py

scrapy crawlall 需在settings里配置 COMMANDS_MODULE = 'project.commands'

执行命令scrapy crawlall

原理:通过加载用户初始化的 crawler_process.spiders 获取列表下的所有spider的name,然后遍历list 分别crawl

断点续爬

#断点续爬 scrapy crawl spider_name -s JOBDIR=crawls/spider_name

↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑

terminnal 执行此命令

可在crawls目录下记录断点，下次继续重复执行命令可从断点续爬。

详细见开发者文档

https://doc.scrapy.org/en/latest/topics/jobs.html?highlight=jobdir

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 断点续爬_scrapy爬虫之断点续爬和多个spider同时爬取

from scrapy.commands import ScrapyCommandfrom scrapy.utils.project import get_project_settings#断点续爬scrapy crawl spider_name -s JOBDIR=crawls/spider_name#运行命令scrapy crawlallclass Command(ScrapyCommand)...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。