⼯作流调度系统——Azkaban

努力转行的任同学...

已于 2023-01-16 10:53:30 修改

阅读量301

点赞数

文章标签： hadoop 大数据分布式

于 2021-09-09 13:49:37 首次发布

本文链接：https://blog.csdn.net/qq_43408367/article/details/120199703

版权

Azkaban 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Azkaban是一个批量工作流任务调度器，常用于复杂任务调度。它提供了Web用户界面，方便任务管理和跟踪。Azkaban支持shell命令、job依赖、HDFS、MAPREDUCE和HIVE脚本等多种任务调度。用户可以创建job描述文件定义任务间的依赖，并通过web管理平台上传和执行工作流。

摘要由CSDN通过智能技术生成

文章目录

⼯作流调度系统

⼀个完整的数据分析系统通常都是由⼤量任务单元组成：shell脚本程序，java程序，mapreduce程序，hive脚本等
各任务单元之间存在时间先后及前后依赖关系,为了很好地组织起这样的复杂执⾏计划，需要⼀个⼯作流调度系统来调度任务的执⾏。
项目流程通常为：
1. 通过Hadoop先将原始数据同步到HDFS上；
2. 借助MapReduce计算框架对原始数据进⾏转换，⽣成的数据以分区表的形式存储到多张Hive表中
3. 需要对Hive中多个表的数据进⾏JOIN处理，得到⼀个明细数据Hive⼤表
4. 将明细数据进⾏各种统计分析，得到结果报表信息
5. 将统计分析得到的结果数据同步到业务系统中，供业务调⽤使⽤

⼯作流调度实现⽅式

简单的任务调度：直接使⽤linux的crontab；
复杂的任务调度：开发调度平台或使⽤现成的开源调度系统，⽐如Ooize、Azkaban、Airflow等

⼯作流调度系统Azkaban

Azkaban的特点：

Azkaban可以调度mapreduce,pig,java,脚本⼯作流任务，并且可以定时执⾏⼯作流任务，Azkaban的定时执⾏任务是基于时间的
Azkaban使⽤Properties⽂件定义⼯作流
Azkaban⽀持直接传参，例如${input}，
Azkaban有较严格的权限控制，如⽤户对⼯作流进⾏读/写/执⾏等操作
Azkaban有两种运⾏模式，分别是solo server mode(executor server和web server部署在同⼀台节点)和multi server mode(executor server和web server可以部署在不同节点)

Azkaban详细介绍

Azkaban是由linkedin（领英）公司推出的⼀个批量⼯作流任务调度器，⽤于在⼀个⼯作流内以⼀个特定的顺序运⾏⼀组⼯作和流程，并且Azkaban使⽤job配置⽂件建⽴任务之间的依赖关系，并提供web⽤户界⾯维护和跟踪⼯作流

在这里插入图片描述

Azkaban定义了⼀种KV⽂件(properties)格式来建⽴任务之间的依赖关系，并提供web⽤户界⾯维护和跟踪⼯作流。
Azkaban主要特点有：Web⽤户界⾯，⽅便上传⼯作流，⽅便设置任务之间的关系，调度⼯作流
Azkaban的架构角色
1. mysql服务器: 存储元数据，如项⽬名称、项⽬描述、项⽬权限、任务状态、SLA规则等
2. AzkabanWebServer:对外提供web服务，使⽤户可以通过web⻚⾯管理。职责包括项⽬管理、权限授权、任务调度、监控executor
3. AzkabanExecutorServer:负责具体的⼯作流的提交、执⾏。

⼯作流调度系统Azkaban的应用

shell command调度

创建job描述文件，

command.job
type=command
command=echo 'hello'

将job资源⽂件打包成zip⽂件并通过azkaban的web管理平台创建project并上传job压缩包
执行job

job依赖调度

创建有依赖关系的多个job描述

第⼀个job：foo.job
type=command
command=echo 'foo'

第⼆个job：bar.job依赖foo.job
type=command
dependencies=foo
command=echo 'bar'

将所有job资源⽂件打到⼀个zip包中，在azkaban的web管理界⾯创建⼯程并上传zip包
执行job

HDFS任务调度

创建job描述⽂件

type=command
command=/opt/servers/hadoop-2.9.2/bin/hadoop fs -mkdir /azkaban

将job资源⽂件打包成zip⽂件，通过azkaban的web管理平台创建project并上传job压缩包
执行job

MAPREDUCE任务调度

mr任务依然可以使⽤command的job类型来执⾏

创建job描述⽂件，及mr程序jar包

type=command
command=/opt/servers/hadoop-2.9.2/bin/hadoop jar hadoop-mapreduceexamples-2.9.2.jar wordcount /wordcount/input /wordcount/azout

将所有job资源⽂件打到⼀个zip包，在azkaban的web管理界⾯创建⼯程并上传zip包
启动job

HIVE脚本任务调度

创建job描述⽂件和hive脚本

Hive脚本： test.sql

use default;
drop table aztest;
create table aztest(id int,name string) row format delimited fields terminatedby ',';

Job描述⽂件：hivef.job

type=command
command=/opt/lagou/servers/hive-2.3.7/bin/hive -f 'test.sql'