AZKABAN分享

最新推荐文章于 2022-07-03 21:18:55 发布

玩玩大数据

最新推荐文章于 2022-07-03 21:18:55 发布

阅读量154

点赞数

分类专栏： azkaban 文章标签： azkaban

本文链接：https://blog.csdn.net/linqichen/article/details/96314004

版权

azkaban 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

是什么

工作流引擎，调度平台，类似oozie

Linkedin开源

官网 https://azkaban.github.io/

怎么安装

1 下载并且编译

主项目git clone https://github.com/azkaban/azkaban.git

需要编译，到目录下，执行以下的命令

./gradlew distTar -x test

2 主要包含三个部分

Azkaban Web服务器，Azkaban执行服务器，MySQL数据库

azkaban-web-server-2.5.0.tar.gz

azkaban-executor-server-2.5.0.tar.gz

3 安装配置，很长

3.1 azkaban web服务器安装
解压azkaban-web-server-2.5.0.tar.gz

命令: tar –zxvf azkaban-web-server-2.5.0.tar.gz

将解压后的azkaban-web-server-2.5.0 移动到 azkaban目录中,并重新命名 webserver

命令: mv azkaban-web-server-2.5.0 ../azkaban

cd ../azkaban

mv azkaban-web-server-2.5.0 server

3.2 azkaban 执行服务器安装

解压azkaban-executor-server-2.5.0.tar.gz

命令:tar –zxvf azkaban-executor-server-2.5.0.tar.gz

将解压后的azkaban-executor-server-2.5.0 移动到 azkaban目录中,并重新命名 executor

命令:mv azkaban-executor-server-2.5.0 ../azkaban

cd ../azkaban

mv azkaban-executor-server-2.5.0 executor

azkaban脚本导入

解压: azkaban-sql-script-2.5.0.tar.gz

命令:tar –zxvf azkaban-sql-script-2.5.0.tar.gz

将解压后的mysql 脚本,导入到mysql中:

进入mysql：

mysql> create database azkaban;

mysql> use azkaban;

mysql> source/home/hadoop/azkaban-2.5.0/create-all-sql-2.5.0.sql;

3.3 生成keysotre的密码和相应信息的密钥库

keytool -keystore keystore -alias jetty -genkey -keyalg RSA

一路默认，最后要输入 jetty的密钥口令，也可以直接回车

最好copy一下： mv keystore /opt/module/azkaban/server

3.4 配置时间

cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

怎么用

1 启动

启动 web:

在webserver/bin目录下，执行

nohup bin/azkaban-web-start.sh 1>/tmp/azstd.out 2>/tmp/azerr.out

启动：server:

bin/ azkaban-executor-start.sh

默认不是activate 所以： http://192.168.64.131:12321/executor?action=activate

2 网站

https://4.0.70.175:8083/index

3 上传zip及效果演示

a1.job:

type=command

command=echo 666

a2.job:

type=command

command=echo 888

dependencies=a1

hive.job:

type=command

command=chmod -R 777 /user/azkaban/exec-server/executions

command.1=echo 666

command.2=su hdfs -c 'hive -f hive.sql'

hive.sql:

show databases;

4 在我们系统中的应用 EMR

api: https://azkaban.readthedocs.io/en/latest/ajaxApi.html

怎么实现的(源码)

主要模块

Azkaban的执行代码主要分为四大模块：

(1)azkaban-webserver：主要提供web界面展示和接收http请求的模块
(2)azkaban-execserver：具体执行任务的模块
(3)azkaban-common：公共模块，提供访问数据库，告警等公共类
(4)azkaban-plugins：插件模块，主要包含hive、spark、mr、java等模块

执行流程

总体说明:

Azkaban WebServer需要根据Executor Server的运行状态信息，选择一个合适的Executor Server来运行WorkFlow，然后会将提交到队列中的WorkFlow调度到选定的Executor Server上运行。

从调度层面来看，Azkaban WebServer与Executor Server之间的交互方式非常简单，是通过REST API的方式来进行交互，基本的模式是，Azkaban WebServer根据调度的需要，主动调用Executor Server暴露的REST API来获取相应的资源信息，比如Executor Server的状态信息、分配WorkFlow到指定Executor Server上运行，等等。