基于Golang的分布式爬虫管理平台,支持Python、NodeJS、Java、Go、PHP等多种编程语言以及多种爬虫框架。
项目自今年三月份上线以来受到爬虫爱好者们和开发者们的好评,不少使用者还表示会用Crawlab搭建公司的爬虫平台。经过近数月的迭代,我们陆续上线了定时任务、数据分析、网站信息、可配置爬虫、自动提取字段、下载结果、上传爬虫等功能,将Crawlab打造得更加实用,更加全面,能够真正帮助用户解决爬虫管理困难的问题。
Crawlab主要解决的是大量爬虫管理困难的问题,例如需要监控上百个网站的参杂scrapy
和selenium
的项目不容易做到同时管理,而且命令行管理的成本非常高,还容易出错。Crawlab支持任何语言和任何框架,配合任务调度、任务监控,很容易做到对成规模的爬虫项目进行有效监控管理。
更新内容
本次v0.3.0
版本是一次重大更新,主要是将原来基于Celery的Python版本后台用Golang替代了。更新内容如下:
- Golang后端: 将原先的Python代码由Golang重构,提高了稳定性和性能
- 节点拓扑图: 将节点拓扑结构可视化了
- 节点系统信息: 可以看到节点的系统信息,例如操作系统、CPU数量,执行文件等等