写爬虫很简单,写出高可用的爬虫就不容易了,scrapyd是官方的scrapy管理工具,但是还是不能满足实时监控和告警的需求。为此做了些改造,可以监控爬虫爬取速率,各种类型exceptions的个数,这样就可以对接telegraf和grafana实时监控和告警了(我想假如爬虫不可用了,那exceptions应该会飙升吧),离着高可用又近了一步。
https://github.com/Tzeross/scrapyd
先看效果,参数接收jobId,返回spider stats:
-
爬虫刚启动时访问api:
-
爬虫运行过程中访问api:
-
爬虫结束: