azkaban是大数据平台的一个开源的可视化调度平台,一般数仓会用来做任务调度。
使用大数据平台作为数仓的开发工具免不了涉及任务调度这一块,在以往的数仓开发建设过程中涉及到了两种调度方式,一种是直接调用大数据端的存储过程,另一种是调用sqoop抽数工具。
Sqoop抽数脚本调度
前提:准备好sqoop抽数脚本(.sh结尾文件),如:
脚本里面包含目标数据库及取数源库的数据库连接信息,一般连接信息会用另一个配置文件加密保存。
配置调度步骤:
1.在Azkaban平台下载最新的任务调度zip包;
2. 解压后将新的job程序放进去(.job结尾);
3. zip包里面一般会有start任务及finished任务,需要在finished任务里面加上新的job的名称到依赖里面去,确保在所有任务完成
后整个调度工作才结束;
4. 重新压缩zip包并上传Azkaban即可;
.job任务文件示例:
第一行是执行sqoop抽数文件的命令,第二行是该任务依赖的其他job
-----------------------------------------------------------------未完待续-----------------------------------------------------------