整理scrapy可视化管理工具spiderkeeper

Xahoo！

于 2019-12-11 10:47:05 发布

阅读量838

点赞数

文章标签： scrapyd spiderkeeper supervisor

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Owen_goodman/article/details/103486950

版权

spiderkeeper是一款开源的spider管理工具，可以方便的进行爬虫的启动，暂停，定时，同时可以查看分布式情况下所有爬虫日志，查看爬虫执行情况等功能。

#安装
安装环境
centos / ubuntu16.04（我的是centos7）
python3.5
pip3 install scrapy
pip3 install scrapyd
pip3 install scrapyd-client
pip3 install scrapy-redis
pip3 install SpiderKeeper

部署爬虫

1、进入到写好的scrapy项目路径中，启动scrapyd （这里我进的是settings同级路径下）

运行： scrapyd

启动之后就可以打开本地运行的scrapyd，浏览器中访问本地6800端口可以查看scrapyd的监控界面

服务器的话访问地址为公网地址:6800 （拒绝访问就要修改scrapyd的配置文件，这里可以找到配置文件，看到网上有自己手动创建配置文件，不推荐，命令：find -name default_scrapyd.conf，vim进入，修改11行为：bind_address = 0.0.0.0）

这里写图片描述

启动成功显示如下：

启动SpiderKeeper

window启动需要输入账号密码，均为admin

命令：spiderkeeper

成功启动显示如下：

访问公网地址:5000可以看到如下界面：

打包项目，部署到scrapyd上

配置需要部署的项目

编辑需要部署的项目的scrapy.cfg文件(需要将哪一个爬虫部署到scrapyd中，就配置该项目的该文件)

[deploy:部署名(部署名可以自行定义)]
url = http://127.0.0.1:6800/ （这里的地址也需要改成自己的公网地址:6800）
project = 项目名(创建爬虫项目时使用的名称)

这里写图片描述

部署项目到scrapyd

同样在scrapy项目路径下执行 (我这里用的还是settings同级)
scrapyd-deploy 部署名 -p 项目名称 (部署名和项目名称要和scrapy.cfg里面定义的一致)
例如：

部署项目到spiderkeeper上

首先在项目路径中“生蛋” （我这里用的还是settings同级）

命令：scrapyd-deploy --build-egg output.egg

然后打开spiderkeeper的页面，点击deploy，点击create project创建新项目

点击选择文件，上传之前创建的.egg文件

output.egg

到这里就应该部署完成了，如果中间出错的话，应该就是路径有问题

spiderkeeper 的使用

点击 Periodic jobs

点击 Add Job 添加脚本，添加定时任务

Dashboard

主界面，可以查看所有爬虫（暂停的，未启动的，运行中的）的情况，如果要运行爬虫可以点击该页面右上角的runonce

可以手动运行你需要的脚本。

其他的功能可以自己研究一下。

定时任务

如果想要开启定时任务来实现长期爬取的话，可以引用supervisor来定时开启 scrapyd 和 spiderkeeper，过程是和定时爬虫的脚本是一样的，当然也可以用 crontab 来定时开启 scrapyd 和 spiderkeeper。推荐supervisor，会自动重启连接断掉的任务。关于supervisor的使用，主页有介绍。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。