第3.3章 scrapy之spiderkeeper

SpiderKeeper Git地址, 因为我们有10台爬虫机器,250个爬虫,于是安排同事使用spiderkeeper管理,但是在deploy环节,50个爬虫的时候,就发布不上去了,逼的我没办法,只能看源码,分析upload做了什么。
1
1 调试准备
调试的环境我是windows,故执行pip install scrapyd进行安装,更改scrapyd的配置
2
bind_address = 127.0.0.1更改为bind_address = 0.0.0.0
然后执行scrapyd启动,
2 spiderkeeper启动
配置了两台scrapyd
1
就可以发现有俩个实例
2
3 创建project
创建project比较简单,通过下图操作添加就可以
1
而spider的产生,是通过定时任务进行的,源码默认的是每10s执行一次
2
3
那么这些爬虫任务来自哪里呢,跟踪发现他会从默认第一个sever中获取,发送listspiders.json请求,并将爬虫清单写入到sk_spider中
4
4 egg上传
egg文件上传做了啥流程如下,最关键的就是通过addversion.json将egg远程发布,这个环节执行时间较长。参考Scrapyd API说明
1
既然了解到原理,我就没必要通过egg上传的方式,费时费力,还启动不了。
操作很简单,按照第2.4章 远程部署scrapyd工程,接着启动

nohup spiderkeeper --server=http://localhost:6800 --server=http://10.101.3.166:6800 --server=http://10.101.3.167:6800 --server=http://10.101.3.168:6800 --server=http://10.101.3.169:6800 --server=http://10.101.3.171:6800 --server=http://10.101.3.172:6800 --server=http://10.101.3.173:6800 --server=http://10.101.3.174:6800 --server=http://10.101.3.175:6800 & 

spiderkeeper源码安装和卸载命令如下

python setup.py install --record files.txt 记录安装后文件的路径
cat files.txt | xargs rm -rf  删除这些文件
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

warrah

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值