scrapy 的暂停和重启

最新推荐文章于 2025-04-11 16:52:56 发布

桃桃桃桃桃桃”

最新推荐文章于 2025-04-11 16:52:56 发布

阅读量7k

点赞数

本文链接：https://blog.csdn.net/weixin_42260204/article/details/81083737

版权

scrapy的爬虫在运行时，需要暂时停止运行，并在下一次从暂停的地方继续爬取的方法：

1.打开cmd进入虚拟环境，cd到scrapy的main.py目录下；

2.在cmd下输入以下命令

scrapy crawl 爬虫名称 -s JOBDIR=保存进程的文件夹目录

比如我要运行的spider的name为zhihu，文件夹目录是scrapy目录下的job_info/001(001表示这是一次爬取任务，重新新建任务需要重新建立目录，比如002），我需要运行的指令为：

scrapy crawl jobbole -s JOBDIR=job_info/001

3.运行过程中按下Ctrl+c暂停任务，等待处理完未完成的进程（按下两次Ctrl+c为强制结束进程）；

4.结束后显示：

[scrapy.core.engine] INFO: Spider closed (shutdown)

5.下次需要重启的时候，输入与第二步相同的命令。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

桃桃桃桃桃桃”

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

scrapy_redis 解决空跑问题,自动关闭爬虫

qq_31362537的博客

08-14

2481

使用过scrapy_redis框架的人一定知道，scrapy redis 在没有requests的时候，会阻塞等待接收start_url，程序无法自动结束。那如何自动停止程序，结束空跑呢？？？ spider_idle 信号 scrapy.signals.spider_idle(spider) 当spider进入空闲(idle)状态时该信号被发送。空闲意味着: requests正在等待被下载...

scrapy爬虫的暂停与重启

oldbig_lin的博客

09-29

9237

首先要有一个scrapy项目这里用我的爬取知乎用户信息的项目来做例子：https://github.com/oldbig-carry/zhihu_user 在cmd上cd 进入项目然后在项目目录下创建记录文件：remain/001 然后输入：scrapy crawl zhihu -s JOBDIR=remain/001 回车运行就行了

2 条评论您还未登录，请先登录后发表或查看评论

scrapy -- 暂停爬虫、恢复爬虫

MarkAdc的博客

03-17

5268

自己笔记本电脑在公司跑爬虫，然后下班了，我把爬虫先暂停，然后把电脑带回家。回家后我再接着跑爬虫，它不香吗

暂停爬虫

weixin_30782293的博客

10-05

199

当我们一个爬虫项目量非常大时候，我们可能不能一次执行完毕，需要分好几次执行，这时候，我们只需要在启动爬虫的时候键入命令 scrapy crawl xxx -s JOBDIR=job1 这时候我们可以看到任务开始执行了，当我们想要暂停的时候按下ctrl+c。当我们想要恢复的时候键入： scrapy crawl xxx -s JOBDIR=job1 这样就可以继续执行了~~ 作者...

使用Scrapy官方开发的爬虫部署、运行、管理工具：Scrapyd

u014695938的博客

04-05

1950

Scrapyd是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。使用Scrapyd，可以实现一键部署Scrapy爬虫，访问一个网址就启动/停止爬虫。Scrapyd自带一个简陋网页，可以通过浏览器看到爬虫当前运行状态或者查阅爬虫Log。Scrapyd提供了官方API，从而可以通过二次开发实现更多更加复杂的功能。Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。

scrapy爬虫框架采集完成后进行暂停延时关闭方法

云霄IT的博客

04-11

257

【代码】scrapy爬虫框架采集完成后进行暂停延时关闭方法。

scrapy暂停与重启/数据收集/去重原理/爬虫中间件等

agdzxzfdyw的博客

10-14

895

selinium 控制鼠标滑动 selinium可以执行JavaScript代码 from selenium import webdriverbro= webdriver.Chrome(executable_path='chromedriver.exe')bro.get('https://blog.csdn.net/nav/python')js="window.scrollTo(0, document.body.scrollHeight); var

scrapy的暂停与重启

Moken9527的博客

10-03

325

首先把爬虫写好后————》在同级文件夹新建一个文件夹（类似于日志）info————》接下来打开命令行cd到这个爬虫 ————》输入命令： scrapy crawl spider -s JOBDIR=info/001 开启 ctrl+c 暂停注意不能按两次，两次是强制退出了，不是暂停了暂停之后需要重启第一行命令：scrapy crawl spider -s...

scrapy 主动停止爬虫转

lwdfzr的博客

07-15

1565

class CloseSpider(object): def __init__(self, crawler): self.crawler = crawler self.close_on = { 'timeout': crawler.settings.getfloat('CLOSESPIDER_TIMEOUT'), 'itemcount': crawler.settings.getint('CLOSESPIDER_I.

scrapy 暂停恢复实现增量爬取

weixin_33714884的博客

05-11

346

1、第一种方法：　　在scrapy crawl 命令后面接上 -s JOBDIR/spidername 可以保存爬取状态实现增量爬取。 scrapy crawl coolapk_info --logfile=app.log -s JOBDIR= crawls/coolapk 2、参考资料 1、https://doc.scrapy.or...

Scrapy 爬虫教程实践

11-09

Scrapy 的 Item 项目调度器是 Scrapy 框架的核心组件，负责调度爬虫的运行，并且可以根据需要实现爬虫的暂停、恢复和重启。Spider 是 Scrapy 框架的爬虫组件，负责抓取 web 站点的数据，并将其传递给 Item 项目调度...

20B_基于Scrapy的WebUI开发_项目需求规格说明书v2.1.11

08-08

- 功能需求：WebUI应包含启动、停止、暂停和重启爬虫的控制功能，以及爬虫日志的查看和搜索功能。 - 性能需求：WebUI应具有良好的响应速度，能够在高并发环境下稳定运行。 - 用户体验需求：界面设计应清晰直观，遵循...

Scrapy：任务队列底层设计详解

Minner

02-14

834

Scrapy 的队列系统是其调度器（Scheduler）的核心组件之一，负责存储和管理待抓取的请求。

Scrapy-redis 源码分析及框架使用

墨鱼菜鸡

07-11

662

From：https://blog.csdn.net/weixin_37947156/article/details/75044971 From：https://cuiqingcai.com/6058.html Scrapy-redis github：https://github.com/rmax/scrapy-redis scrapy-redis分布...

Scrapy学习-17-暂停和重启

weixin_30700977的博客

05-23

108

Scrapy爬虫暂停和重启在当前项目下新建一个用于存储中间过程变量的目录　　注意不同的spider不能共用一个目录　　同一个spider每次运行时也必须使用新的目录　　mkdir <spider_porject_path>/job_process 带参数的命令启动方式 1 scrapy crawl <spider_name> -s ...

Python进阶之Scrapy的暂停与重启

西山枫叶

05-28

1529

我在极光代理网站看到的这一篇-----》链接 Scrapy的每一个爬虫，暂停时能够记录暂停状态和爬取的URL，重启时能从暂停状态开始爬取过的URL不在爬取怎么实现暂停与重启记录状态措施一： 1、第一步cd进入到scrapy项目里 2、在scrapy项目中新建存储记录信息的文件夹 3、执行命令： scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径如：scrapy cr...

scrapyd日志太多了，重启scrapyd

YMD8005的专栏

01-04

3375

scrapyd日志太多了，重启scrapyd scrapyd-deploy

scrapy爬虫设置停止的条件

amanloveformi的博客

08-29

6756

使用scrapy做爬虫程序时，有时候我们需要在爬虫满足一定条件时，将程序中断掉，从而不再向服务器发送已经没有意义的请求。一：scrapy中提供的两种停止的方式： 1.在spider中停止爬虫：在解析函数中调用内置函数 self.crawler.engine.close_spider(self, "当调用此方法时打印信息为：无有效信息，关闭spider") 设置条件，当满足一定的条...

第六章慕课网学习-scrapy的暂停与重启

shaququ的博客

08-25

3164

1.scrapy crawl spider lagou -s JOBDIR= job_info/001 将暂停时信息保存到001 (-s是-set的意思) 1.不同的spider需要不同的目录 2.可以在 settings 和 custome_setting 中设置 JOBDIR= job_info/001 3.ctrl-c 后就会将暂停信息保存到001 要想重新开始则再次运行 scrap

scrapy 断点续爬讲解

最新发布

04-22

### 如何在Scrapy中实现断点续爬功能 #### 1. 使用 `JOBDIR` 参数保存状态 Scrapy 提供了一个内置的功能来支持断点续爬，即通过设置 `JOBDIR` 参数。该参数用于存储请求队列和跟踪的状态信息，以便在爬虫中断后能够恢复运行[^5]。可以通过在配置文件 `settings.py` 或启动命令中指定 `JOBDIR` 的路径： ```python # settings.py 配置 JOBDIR JOBDIR = 'crawls/some_name' ``` 或者直接在命令行中传递参数： ```bash scrapy crawl myspider -s JOBDIR=crawls/some_name ``` 当启用此选项时，Scrapy 将会把未完成的请求和其他必要的状态信息保存到指定目录中。如果爬虫意外终止，在重新启动时它可以从上次停止的地方继续执行。 #### 2. 自定义中间件处理暂停与恢复逻辑除了利用 `JOBDIR` 功能外，还可以自定义下载器中间件或扩展来增强断点续爬的能力。例如，记录已抓取 URL 到数据库或其他持久化存储介质中，并在下次启动前加载这些数据以跳过已经访问过的页面[^6]。下面展示一个简单例子，演示如何创建一个去重过滤器并将其集成至项目里： ```python from scrapy import Request from scrapy.exceptions import IgnoreRequest class SeenUrlsMiddleware: def __init__(self): self.seen_urls = set() @classmethod def from_crawler(cls, crawler): return cls() def process_request(self, request: Request, spider): if request.url in self.seen_urls: raise IgnoreRequest(f"Ignoring duplicate request to {request.url}") else: self.seen_urls.add(request.url) def close_spider(self, spider): with open('seen_urls.txt', 'w') as f: for url in self.seen_urls: f.write(url + '\n') ``` 接着更新 `settings.py` 文件激活这个新的中间件组件： ```python DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.SeenUrlsMiddleware': 543, } ``` 每次关闭蜘蛛程序之前都会自动保存所有遇到过的网址列表；当下次重启应用的时候读入这份清单从而避免重复劳动。 #### 3. 数据库辅助方案对于更复杂的场景来说，可能需要用到外部关系型数据库 (RDBMS) 像 MySQL、PostgreSQL 来管理已完成的任务条目以及待办事项队列等等[^7]。这样做的好处是可以更好地控制整个流程并且方便后续分析统计工作。假设我们有一个表用来追踪每一条新闻资讯的内容摘要及其来源链接地址，则可以在爬取过程中不断向其中插入新纪录的同时查询是否存在相同键值对防止再次采集相同的资源浪费时间精力。 --- ### 总结综上所述，有多种方式可以帮助你在 Scrapy 中实现断点续爬功能。最简便的方法就是依靠官方推荐使用的 `JOBDIR` 设置项来进行基本的支持；而对于更加高级的需求则考虑引入额外的技术手段比如定制化的中间件或者是依托于后台服务端的数据管理系统共同协作达成目标效果。 ---