1. 任务调度概述
- 一个完整的数据分析系统通常都是由大量任务单元组成:
shell脚本程序,java程序,mapreduce程序、hive脚本等 - 各任务单元之间存在时间先后及前后依赖关系
现成的开源调度系统,比如ooize、azkaban。
2. azkaban介绍
Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。
它有如下功能特点:
- Web用户界面
- 方便上传工作流
- 方便设置任务之间的关系
- 调度工作流
- 认证/授权(权限的工作)
- 能够杀死并重新启动工作流
- 模块化和可插拔的插件机制
- 项目工作区
- 工作流和任务的日志记录和审计
3. azkaban安装部署
最好结合shell脚本来完成调度。
azkaban最好安装在master上,方便各种命令的执行。
Azkaban Web服务器:
azkaban-web-server-2.5.0.tar.gz
Azkaban执行服务器:
azkaban-executor-server-2.5.0.tar.gz
MySQL:
目前azkaban只支持 mysql,需安装mysql服务器,可以安装在某个节点之上(172.23.27.11),并建立了 root用户,密码 921015.
1.azkaban web服务器安装
1.解压
tar –zxvf azkaban-web-server-2.5.0.tar.gz