巨鲸任务调度平台

最新推荐文章于 2024-08-27 16:04:33 发布

progr1mmer

最新推荐文章于 2024-08-27 16:04:33 发布

阅读量1.5k

点赞数

分类专栏：开源项目文章标签： spark flink hive 大数据

本文链接：https://blog.csdn.net/m0_37536645/article/details/106952262

版权

1 篇文章 0 订阅

订阅专栏

Big Whale

巨鲸任务调度平台为美柚大数据研发的分布式计算任务调度系统，提供Spark、Flink等批处理任务的DAG执行调度和流处理任务的状态监测调度，并具有重复应用检测、大内存应用检测等功能。
服务基于Spring Boot 2.0开发，打包后即可运行。[Github][Gitee]

创建数据库：big-whale
运行数据库脚本：big-whale.sql
根据Spring Boot环境，配置相关数据库账号密码，以及SMTP信息
配置：big-whale.properties
- 配置项说明
  - ssh.user: 拥有脚本执行权限的ssh远程登录用户名（平台会将该用户作为统一的脚本执行用户）
  - ssh.password: ssh远程登录用户密码
  - dingding.enabled: 是否开启钉钉告警
  - dingding.watcher-token: 钉钉公共群机器人Token
  - yarn.app-memory-threshold: Yarn应用内存上限（单位：MB），-1禁用检测
  - yarn.app-white-list: Yarn应用白名单列表（列表中的应用申请的内存超过上限，不会进行告警）
修改：$FLINK_HOME/bin/flink，参考：flink（因flink提交任务时只能读取本地jar包，故需要在执行提交命令时从hdfs上下载jar包并替换脚本中的jar包路径参数）
打包：mvn clean package

打开：http://localhost:17070
输入账号admin，密码admin
点击：权限管理->用户管理，修改当前账号的邮箱为合法且存在的邮箱地址，否则会导致邮件发送失败
添加集群
- 集群管理->集群管理->新增
- “yarn管理地址”为Yarn ResourceManager的WEB UI地址
- “程序包存储目录”为程序包上传至hdfs集群时的存储路径，如：/data/big-whale/storage
- “支持Flink任务代理用户”“流处理任务黑名单”和“批处理任务黑名单”为内部定制的任务分配规则，勿填
添加代理
- 集群管理->代理管理->新增
- 可添加多个实例，执行脚本的时候会随机选择一个实例执行，在实例不可达的情况下，会继续随机选择下一个实例，在实例均不可达时执行失败
- 选择集群后，会作为该集群下提交Spark或Flink任务的代理之一
添加集群用户
- 集群管理->集群用户->新增
- 该配置的语义为：平台用户在所选集群下可以使用的Yarn资源队列（–queue）和代理用户（–proxy-user）
添加计算框架版本
- 集群管理->版本管理->新增
- 同一集群下不同版本的Spark或Flink任务的提交命令可能有所不同，如Spark 1.6.0版本的提交命令为spark-submit，Spark 2.1.0版本的提交命令为spark2-submit

任务调度->新增->批处理
对于类型为“shell批处理”、“spark批处理”和“flink批处理”的脚本，可通过添加此功能实现DAG执行调度 (v1.1开始支持，需要从v1.0升级的，请查阅SchedulingFieldGenerateForV1_1Test.java)
说明：为防止平台线程被大量占用，平台提交Saprk或Flink任务的时候都会强制以“后台”的方式执行，对应spark配置：–conf spark.yarn.submit.waitAppCompletion=false，flink配置：-d，但是基于后台“批处理应用状态更新任务”的回调，在实现DAG执行引擎时可以确保当前节点脚本所提交的批处理任务运行完成后再执行下一个节点的脚本

{
  "sign": "c3V4aWFveWFuZzExIQ==",
  "id": "8a80813a7154f28a017154f6637c1794",
  "args": {
    "$output_dir": "/var",
    "$dt": "20200415"
  }
}

The project is licensed under the Apache 2 license.

关注

专栏目录