爬虫平台Crawlab v0.2.2发布

Crawlab是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业。

对Crawlab还不了解的童鞋,请移步之前的文章:

分布式调度系统

Crawlab的任务调度核心模块基于Celery,因此天然支持分布式爬虫、多节点抓取。

自定义爬虫

Crawlab的自定义爬虫可兼容任何语言以及任何框架。从目前开源的框架来看,大部分爬虫平台是以scrapyd为核心,因此只能支持scrapy框架的爬虫,而Crawlab不仅支持scrapy,还支持其他框架的爬虫。

可配置爬虫

Crawlab在版本v0.2.1中新增了可配置爬虫功能,用户通过配置爬虫的抓取规则,不用写任何代码,就可以在1-3分钟内开发好一个集下载、解析、存储一体的常规爬虫。

自动提取匹配规则

v0.2.2中,加入了自动提取列表字段规则,让用户能够一键提取匹配的列表字段,开发时间进一步降低到半分钟以内。因此Crawlab正在朝真正的“一键抓取”的目标迈进。

更新一览

v0.2.2
  • 自动提取匹配规则
  • 下载抓取结果
v0.2.1
  • 可配置爬虫
  • 网站列表
v0.2
  • 基础统计
  • 数据分析(爬虫)
  • 网站信息
  • 定时任务
待开发
  • 用户管理
  • 上传爬虫
  • 下载爬虫
  • 可配置爬虫支持动态内容
  • 异常监控
  • 更多爬虫例子
  • 文件管理
  • 日志管理
  • 部署系统优化

截屏

可配置爬虫(添加)

可配置爬虫(配置)

可配置爬虫(预览)

网站列表

Github: tikazyq/crawlab

如果您觉得Crawlab对您的日常开发或公司有帮助,请加作者微信拉入开发交流群,大家一起交流关于Crawlab的使用和开发。

转载于:https://juejin.im/post/5cef8245f265da1b5e72d786

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值