Big Whale
巨鲸任务调度平台为美柚大数据研发的分布式计算任务调度系统,提供Spark、Flink等批处理任务的DAG调度和流处理任务的运行管理和状态监控,并具有Yarn应用管理、重复应用检测、大内存应用检测等功能。服务基于Spring Boot 2.0开发,打包后即可运行。
概述
1.架构图
2.特性
-
基于SSH的脚本执行机制,部署简单快捷,仅需单个服务
-
基于Yarn Rest Api的任务状态同步机制,对Spark、Flink无版本限制
-
支持失败重试
-
支持任务依赖
-
支持复杂任务编排(DAG)
-
支持流处理任务运行管理和监控
-
支持Yarn应用管理
部署
1.准备
-
Java 1.8+
-
Mysql 5.1.0+
-
下载项目或git clone项目
-
为解决 github README.md 图片无法正常加载的问题,请在hosts文件中加入相关域名解析规则,参考:hosts
2.安装
-
创建数据库:big-whale
-
运行数据库脚本:big-whale.sql
-
根据Spring Boot环境,配置相关数据库账号密码,以及SMTP信息
-
配置:big-whale.properties
-
ssh.user: 拥有脚本执行权限的ssh远程登录用户名(平台会将该用户作为统一的脚本执行用户)
-
ssh.password: ssh远程登录用户密码
-
dingding.enabled: 是否开启钉钉告警
-
dingding.watcher-token: 钉钉公共群机器人Token
-
yarn.app-memory-threshold: Yarn应用内存上限(单位:MB),-1禁用检测
-
yarn.app-white-list: Yarn应用白名单列表(列表中的应用申请的内
-