大数据之Azkaban 安装 与 应用

概述

为什么需要工作流调度系统

一个完整的数据分析系统通常都是由大量任务单元组成:
shell脚本程序,java程序,mapreduce程序、hive脚本等

各任务单元之间存在时间先后及前后依赖关系

为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;
例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:
(1) 通过Hadoop先将原始数据上传到HDFS上(HDFS的操作);
(2) 使用MapReduce对原始数据进行清洗(MapReduce的操作);
(3) 将清洗后的数据导入到hive表中(hive的导入操作);
(4) 对Hive中多个表的数据进行JOIN处理,得到一张hive的明细表(创建中间表);
(5) 通过对明细表的统计和分析,得到结果报表信息(hive的查询操作);

Azkaban的适用场景

根据以上业务场景: (2)任务依赖(1)任务的结果,(3)任务依赖(2)任务的结果,(4)任务依赖(3)任务的结果,(5)任务依赖(4)任务的结果。一般的做法是,先执行完(1)再执行(2),再一次执行(3)(4)(5)。
这样的话,整个的执行过程都需要人工参加,并且得盯着各任务的进度。但是我们的很多任务都是在深更半夜执行的,通过写脚本设置crontab执行。其实,整个过程类似于一个有向无环图(DAG)。每个子任务相当于大任务中的一个节点,也就是,我们需要的就是一个工作流的调度器,而Azkaban就是能解决上述问题的一个调度器。

什么是azkaban

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式通过配置中的dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

Azkaban特点

(1) 兼容任何版本的hadoop
(2) 易于使用的Web用户界面
(3) 简单的工作流的上传
(4) 方便设置任务之间的关系
(5) 调度工作流
(6) 模块化和可插拔的插件机制
(7) 认证/授权(权限的工作)
(8) 能够杀死并重新启动工作流
(9) 有关失败和成功的电子邮件提醒

常见工作流调度系统

简单的任务调度:直接使用crontab实现;

复杂的任务调度:开发调度平台或使用现成的开源调度系统,比如ooize、azkaban等

ooize和azkaban特性对比

下面的表格对上述四种hadoop工作流调度器的关键特性进行了比较,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著的区别,在做技术选型的时候,可以提供参考

特性ooizeazkaban
工作流描述语言XMLtext file with key/value pairs
是否要web容器YesYes
进度跟踪web pageweb page
Hadoop job调度支持yesyes
运行模式daemondaemon
事件通知noYes
需要安装yesyes
支持的hadoop版本0.20+currently unknown
重试支持workflownode evelyes
运行任意命令yesyes

Azkaban的架构

Azkaban由三个关键组件构成:
在这里插入图片描述
AzkabanWebServer:AzkabanWebServer是整个Azkaban工作流系统的主要管理者,它用户登录认证、负责project管理、定时执行工作流、跟踪工作流执行进度等一系列任务。

AzkabanExecutorServer:负责具体的工作流的提交、执行,它们通过mysql数据库来协调任务的执行。

关系型数据库(MySQL):存储大部分执行流状态,AzkabanWebServer和AzkabanExecutorServer都需要访问数据库。


Azkaban安装部署

Azkaban下载地址

下载地址:http://azkaban.github.io/downloads.html

百度云提取码efxc

安装前准备

将Azkaban Web服务器、Azkaban执行服务器、Azkaban的sql执行脚本及MySQL安装包拷贝到bigdata111虚拟机/opt/software目录下

(1) azkaban-web-server-2.5.0.tar.gz
(2) azkaban-executor-server-2.5.0.tar.gz
(3) azkaban-sql-script-2.5.0.tar.gz
(4) mysql-libs.zip
*

选择Mysql作为Azkaban数据库,因为Azkaban建立了一些Mysql连接增强功能,以方便Azkaban设置,并增强服务可靠性。

安装Azkaban

1)在/opt/module/目录下创建azkaban目录

mkdir azkaban

2)解压azkaban-web-server-2.5.0.tar.gz、azkaban-executor-server-2.5.0.tar.gz、azkaban-sql-script-2.5.0.tar.gz到/opt/module/azkaban目录下

tar -zxvf azkaban-web-server-2.5.0.tar.gz -C /opt/module/azkaban/

tar -zxvf azkaban-executor-server-2.5.0.tar.gz -C /opt/module/azkaban/

tar -zxvf azkaban-sql-script-2.5.0.tar.gz -C /opt/module/azkaban/

3)对解压后的文件重新命名

mv azkaban-web-2.5.0/ server

mv azkaban-executor-2.5.0/ executor

4)azkaban脚本导入

进入mysql,创建azkaban数据库,并将解压的脚本导入到azkaban数据库。

mysql -uroot -p000000
mysql> create database azkaban;
mysql> use azkaban;
mysql> source /opt/module/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql
注:source后跟.sql文件,用于批量处理.sql文件中的sql语句。

生成密钥库

Keytool是java数据证书的管理工具,使用户能够管理自己的公/私钥对及相关证书。
-keystore 指定密钥库的名称及位置(产生的各类信息将不在.keystore文件中)
-genkey 在用户主目录中创建一个默认文件".keystore"
-alias 对我们生成的.keystore 进行指认别名;如果没有默认是mykey
-keyalg 指定密钥的算法 RSA/DSA 默认是DSA

生成 keystore的密码及相应信息的密钥库

[root@bigdata111 azkaban]# keytool -keystore keystore -alias jetty -genkey -keyalg RSA
输入密钥库口令:  000000
再次输入新口令:  000000
您的名字与姓氏是什么?
  [Unknown]:  
您的组织单位名称是什么?
[Unknown]:  
您的组织名称是什么?
  [Unknown]:  
您所在的城市或区域名称是什么?
  [Unknown]:  
您所在的省/市/自治区名称是什么?
  [Unknown]:  
该单位的双字母国家/地区代码是什么?
  [Unknown]:  
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=Unknown是否正确?
  [否]:  y

输入 <jetty> 的密钥口令    000000
        (如果和密钥库口令相同, 按回车):  
再次输入新口令:            000000
注意:
密钥库的密码至少必须6个字符,可以是纯数字或者字母或者数字和字母的组合等等
密钥库的密码最好和<jetty> 的密钥相同,方便记忆

将keystore 拷贝到 azkaban web服务器根目录中

mv keystore /opt/module/azkaban/server/

时间同步配置

yum -y install ntp ntpdate

设置系统时间与网络时间同步

ntpdate cn.pool.ntp.org

配置文件

Web服务器配置

1)进入azkaban web服务器安装目录 conf目录,打开azkaban.properties文件

vi azkaban.properties

2)按照如下配置修改azkaban.properties文件。

#Azkaban Personalization Settings
#服务器UI名称,用于服务器上方显示的名字
azkaban.name=Test
#描述
azkaban.label=My Local Azkaban
#UI颜色
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
#默认web server存放web文件的目录
web.resource.dir=/opt/module/azkaban/server/web/
#默认时区,已改为亚洲/上海 默认为美国
default.timezone.id=Asia/Shanghai

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
#用户权限管理默认类(绝对路径)
user.manager.xml.file=/opt/module/azkaban/server/conf/azkaban-users.xml

#Loader for projects
#global配置文件所在位置(绝对路径)
executor.global.properties=/opt/module/azkaban/executor/conf/global.properties
azkaban.project.dir=projects

#数据库类型
database.type=mysql
#端口号
mysql.port=3306
#数据库连接IP
mysql.host=bigdata111
#数据库实例名
mysql.database=azkaban
#数据库用户名
mysql.user=root
#数据库密码
mysql.password=000000
#最大连接数
mysql.numconnections=100

# Velocity dev mode
velocity.dev.mode=false

# Azkaban Jetty server properties.
# Jetty服务器属性.
#最大线程数
jetty.maxThreads=25
#Jetty SSL端口
jetty.ssl.port=8443
#Jetty端口
jetty.port=8081
#SSL文件名(绝对路径)
jetty.keystore=/opt/module/azkaban/server/keystore
#SSL文件密码
jetty.password=000000
#Jetty主密码与keystore文件相同
jetty.keypassword=000000
#SSL文件名(绝对路径)
jetty.truststore=/opt/module/azkaban/server/keystore
#SSL文件密码
jetty.trustpassword=000000

# Azkaban Executor settings
executor.port=12321

# mail settings
mail.sender=
mail.host=
job.failure.email=
job.success.email=

lockdown.create.projects=false

cache.directory=cache

** 3)web服务器用户配置
在azkaban web服务器安装目录 conf目录,按照如下配置修改azkaban-users.xml 文件,增加管理员用户。**

vi azkaban-users.xml

<azkaban-users>
	<user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
	<user username="metrics" password="metrics" roles="metrics"/>
	<user username="admin" password="admin" roles="admin,metrics" />
	<role name="admin" permissions="ADMIN" />
	<role name="metrics" permissions="METRICS"/>
</azkaban-users>

执行服务器配置

进入执行服务器 (executor) 安装目录conf,打开azkaban.properties

vim azkaban.properties

按照如下配置修改azkaban.properties文件。

#Azkaban
#时区
default.timezone.id=Asia/Shanghai

# Azkaban JobTypes Plugins
#jobtype 插件所在位置
azkaban.jobtype.plugin.dir=plugins/jobtypes

#Loader for projects
executor.global.properties=/opt/module/azkaban/executor/conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=bigdata111
mysql.database=azkaban
mysql.user=root
mysql.password=000000

mysql.numconnections=100

# Azkaban Executor settings
#最大线程数
executor.maxThreads=50
#端口号(如修改,请与web服务中一致)
executor.port=12321
#线程数
executor.flow.threads=30**

启动executor服务器

在executor服务器目录下执行启动命令

 bin/azkaban-executor-start.sh

启动web服务器

在azkaban web服务器(server)目录下执行启动命令

bin/azkaban-web-start.sh

注意:
先执行executor,再执行web,避免Web Server会因为找不到执行器启动失败

启动完成后,在浏览器(建议使用谷歌浏览器)中输入https://服务器IP地址:8443,即可访问azkaban服务了。

在登录中输入刚才在azkaban-users.xml文件中新添加的户用名及密码,即admin和admin,点击 login。


Azkaban实战

Azkaba内置的任务类型支持command、java

单一job案例

1)创建job描述文件
[root@bigdata111 jobs]$ vim first.job
#first.job
type=command
command=echo 'this is my first job'

2) 将job资源文件打包成zip文件
[root@bigdata111 jobs]$ zip first.zip first.job
adding: first.job (deflated 15%)
[root@bigdata111 jobs]$ ll
总用量 8
-rw-rw-r–. 1 itstar itstar 60 10月 18 17:42 first.job
-rw-rw-r–. 1 itstar itstar 219 10月 18 17:43 first.zip

注意:
目前,Azkaban上传的工作流文件只支持xxx.zip文件。zip应包含xxx.job运行作业所需的文件和任何文件(文件名后缀必须以.job结尾,否则无法识别)。作业名称在项目中必须是唯一的。
3)通过azkaban的web管理平台创建project并上传job的zip包
首先创建project

在这里插入图片描述
上传zip包
在这里插入图片描述
启动执行该job
在这里插入图片描述
点击执行工作流
在这里插入图片描述
点击继续
在这里插入图片描述
Job执行成功
在这里插入图片描述
点击查看job日志
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值