scrapy进阶开发（二）：暂停与重启

最新推荐文章于 2023-03-03 12:08:22 发布

weixin_34218579

最新推荐文章于 2023-03-03 12:08:22 发布

阅读量346

点赞数

文章标签：爬虫 python

原文链接：https://juejin.im/post/5c10a19d5188257655485768

版权

方法1：命令行设置

# 进入虚拟环境
workon ${YOUR_VIRTUAL_ENV}
# 进入爬虫目录
cd ${YOUR_SPIDER_HOME}
# 爬虫启动命令
srapy crawl spider lagou -s JOBDIR=${STATE_SAVE_PATH}
# 暂停 ctrl+c
# 重启 srapy crawl spider lagou -s JOBDIR=${STATE_SAVE_PATH}
复制代码

方法2：爬虫文件内设置

# spider项目里自定义配置
custom_settings={
    JOBDIR : ${STATE_SAVE_PATH}
}
...
# 命令行正常启动
srapy crawl spider lagou 
...
复制代码

中间态文件内容

文件名	类型	用处
request.seen	文件	已经访问过的url
spider.state	文件	spider的状态信息
requests.queue	文件夹	request队列
requests.queue/p0	文件	需要继续做完的request

注意
- JOBDIR目录下保存中间态信息
- 不同的spider不能共用同一个目录
- 不同的run不能共用同一个目录
- 不能用kill -9 main.py 命令强制结束爬虫
- 正常退出使用ctrl+c（只能按一次，按完需要一段时间处理中间状态）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34218579

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
scrapy进阶开发（二）：暂停与重启

方法1：命令行设置# 进入虚拟环境workon ${YOUR_VIRTUAL_ENV}# 进入爬虫目录cd ${YOUR_SPIDER_HOME}# 爬虫启动命令srapy crawl spider lagou -s JOBDIR=${STATE_SAVE_PATH}# 暂停 ctrl+c# 重启 srapy crawl spider lagou -s JOBDIR=${S...
复制链接

扫一扫