Azkaban3.81.0安装以及简单使用

1.为啥什么要使用WorkFlow?

生产中ETL、以及HIve sql等作业都是通过shell命令触发运行的,我们知道Linux有自带的Crontab调度器,通过它可以进行简单作业的调度,但是对于一些依赖的作业,比如作业B依赖于作业A完成后才能开始,这是Crontab很难去配置了,因为配置Crontab人根本不知道作业具体是何时完成的,全凭经验感觉,这是不可取的。此时我们需要Work Flow来规划好作业的执行调度。

市场主流的工作流有两种:Oozie以及Azkzban

2.常用工作流对比

  • Oozie:重量级的,不推荐使用,开发需要写一堆XML配置,非常的麻烦,生产上面如果用CM的话,Oozie可以直接配的(在HUE里)
  • Azkzban:轻量级的,推荐使用,具有很好的WEBUI交互设计,但是也是比较难用,部分功能需要自定义开发,如无短信通知功能。

3.Azkaban简介

Scheduler调度框架

  • 首先它不是apache项目,但属于开源项目,官网地址:https://azkaban.github.io/
  • 它是用于运行hadoop生态圈相关作业的批量工作流调度器,主要用于解决作业间的依赖关系来解决顺序问题,它提供了- 一个良好的Web操作界面。
  • 两种部署模式:无论哪一种部署模式都会包含所有的特性
solo-server mode :单机模式,内置了H2数据库,web和executor服务运行在一个进程上,可用于测试,本次测试部署的是单机模式,
multiple-executor mode:集群模式,DB使用的是有主备的mysql,升级维护不影响使用,用于生产

这里引申出来一个问题:生产上web server and executor server需不需要HA

executor server是可以配多个

  • 具体特性可参考官网

4.安装Azkabab

安装以3.81.0版本的Azkabab需要有jdk1.8、gradle、git环境,gradle是类似于maven一样的jar依赖管理工具。

4.1下在安装包

  • 下载Azkabab:前往github,注意不要选择pre-XXX开头的版本包,这里我选的是最新的3.81.0
    在这里插入图片描述

  • 下载gradle:官网地址,我这里下载的是4.6版本

在这里插入图片描述

4.2配置gradle安装包

#解压
[hadoop@hadoop001 ~]$ tar -zxvf ~/soft/azkaban-3.81.0.tar.gz -C ~/source/ 

#使用gradlew编译时会自动下载的gradle,但是太慢了,我们选择手动下载然后拷贝到wrapper目录
[hadoop@hadoop001 source]$ cp ~/soft/gradle-4.6-all.zip ~/source/azkaban-3.81.0/gradle/wrapper/
[hadoop@hadoop001 ~]$ cd ~/source/azkaban-3.81.0/gradle/wrapper/
[hadoop@hadoop001 wrapper]$ ll
total 104284
-rw-r--r-- 1 hadoop hadoop 106724289 Apr 16 07:52 gradle-4.6-all.zip
-rw-rw-r-- 1 hadoop hadoop     54708 Dec  5 20:06 gradle-wrapper.jar
-rw-rw-r-- 1 hadoop hadoop       779 Dec  5 20:06 gradle-wrapper.properties

#修改distributionUrl配置
[hadoop@hadoop001 wrapper]$  vi gradle-wrapper.properties 
distributionUrl=gradle-4.6-all.zip

4.3安装git

#注意使用root
[root@hadoop001 ~]$ yum install -y git
[root@hadoop001 ~]# git --version
git version 1.7.1

4.4编译以及安装

编译命令:./gradlew build installDist -x test,-x test表示跳过测试,跳过测试可大大降低编译所需要的时间。

#编译,编译需要下载依赖的包,故需要等待会儿,首先要装gradlew
[hadoop@hadoop001 ~]$ cd /home/hadoop/source/azkaban-3.81.0/
[hadoop@hadoop001 azkaban-3.81.0]$ ./gradlew build installDist -x test

#若遇到如下异常
FAILURE: Build failed with an exception.
 What went wrong:
Execution failed for task ':az-crypto:test'.
> There were failing tests. See the report at: file:///home/hadoop/source/azkaban-3.57.0/az-crypto/build/reports/tests/test/index.html
#通过查阅子资料分析得知,缺少了jce,下载地址:https://www.oracle.com/technetwork/cn/java/javase/downloads/jce8-download-2133166-zhs.html ,解压并放在jre相关目录
[root@hadoop001 soft]# unzip jce_policy-8.zip
[root@hadoop001 soft]# cd UnlimitedJCEPolicyJDK8/
[root@hadoop001 UnlimitedJCEPolicyJDK8]# ll
total 16
-rw-rw-r--. 1 root root 3035 Dec 21  2013 local_policy.jar
-rw-r--r--. 1 root root 7323 Dec 21  2013 README.txt
-rw-rw-r--. 1 root root 3023 Dec 21  2013 US_export_policy.jar
[root@hadoop001 soft]# cp UnlimitedJCEPolicyJDK8/* /usr/java/jdk1.8.0_45/jre/lib/security/

还有报错的话可以使用以下方法:
安装 ca-certificates :yum install ca-certificates
更新本地证书库: update-ca-trust -h

 update-ca-trust check

 update-ca-trust enable

//以上的问题都是服务器配置混乱,网络不通畅导致

#重新编译
[hadoop@hadoop001 azkaban-3.57.0]# ./gradlew build installDist -x test

BUILD SUCCESSFUL in 49m 42s
105 actionable tasks: 105 executed
[hadoop@hadoop001 azkaban-3.81.0]$ 

#查看部署包,azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz为单机部署的包
[hadoop@hadoop001 azkaban-3.81.0]$ cd azkaban-solo-server/build/distributions/
[hadoop@hadoop001 distributions]$ ll
total 71060
-rw-rw-r-- 1 hadoop hadoop 36313361 Apr 16 09:17 azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz
-rw-rw-r-- 1 hadoop hadoop 36449964 Apr

#解压
[hadoop@hadoop001 distributions]$ mv azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz ~/soft/
[hadoop@hadoop001 distributions]$ cd ~/soft/
[hadoop@hadoop001 soft]$ tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz -C ~/app/

#启动,注意要在安装目录启动,踩坑
[hadoop@hadoop001 azkaban-solo-server-0.1.0-SNAPSHOT]$ bin/start-solo.sh
[hadoop@hadoop001 azkaban-solo-server-0.1.0-SNAPSHOT]$ jps
7882 AzkabanSingleServer
7899 Jps
#关闭命令
[hadoop@hadoop001 azkaban-solo-server-0.1.0-SNAPSHOT]$ bin/shutdown-solo.sh

#(可选操作)修改配置文件,修改首页显示信息
azkaban.name=FWZ Test
azkaban.label=FWZ study Azkaban

#(可选操作)修改配置文件,添加登录的用户fwz
[hadoop@hadoop001 conf]$ vi azkaban-users.xml 
  <user password="123456" roles="admin" username="fwz"/>

5.简单使用Azkabab

Azkabab的主页地址:http://hadoop001:8081/

在这里插入图片描述

在这里插入图片描述

5.1创建项目

创建了一个personal类型项目,名称为fwztestProject

在这里插入图片描述

5.2创建一个简单flow

一个flow是由.project以及.flow两个文件构成

创建一个first目录,下面存放两个两个文件,也是Azkaban需要的两个文件:basic.flow和flow20.project
在这里插入图片描述
flow20.project的文件内容:

azkaban-flow-version: 2.0

  • 编辑basic.flow,basic则是flow的名称配置具体作业信息,作业名jobA,作业的类型命令,作业配置,执行的命令
    basic.flow的文件内容:
    name:作业名
    type:命令类型,比如comand
    commond:这里输出了一句话This is an echoed text
nodes:
  - name: jobA
    type: command
    config:
      command: echo "This is an echoed text." >> /home/hadoop/data/azkabantest/job1.txt

  • 将first目录打成zip包上传到Azkaban

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 运行flow,succeeded表示运行成功

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zmvGF1Mn-1587023110562)(https://s2.ax1x.com/2019/05/14/EomPFs.md.png)]

比较奇怪,我的文件并没有输出到文本中,但是我换了一个其它命令是可以运行的。

5.2创建一个多job的flow

新建一个dependency目录,下面两个文件,主要编辑basic.flow文件

  • 编辑flow文件
nodes:
  - name: jobC
    type: noop
    # jobC depends on jobA and jobB
    dependsOn:
      - jobA
      - jobB

  - name: jobA
    type: command
    config:
      command: echo "This is an echoed text."

  - name: jobB
    type: command
    config:
      command: pwd

type:noop表示无操作,dependson表示作业的依赖关系

  • 编辑project文件
azkaban-flow-version: 2.0

  • 运行flow,succeeded表示运行成功,下图是作业间的依赖关系
    在这里插入图片描述

5.3创建一个wc的MR任务的flow

wc使用的是hadoop自带的example的jar包

  • 编辑flow文件
nodes:
  - name: jobA
    type: command
    config:
      command: /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/bin/hadoop jar /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount file:///home/hadoop/data/azkabantest/word.txt file:///home/hadoop/data/azkabantest/output1

type:noop表示无操作,dependson表示作业的依赖关系

  • 编辑project文件
azkaban-flow-version: 2.0
  • 将文件夹打zip包上传运行。WC是MR任务,运行时启动是需要一定时间的
  • 查看结果
[hadoop@hadoop001 azkabantest]$ ll output1/
total 4
-rw-r--r--. 1 hadoop hadoop 65 May  3 00:27 part-r-00000.bz2
-rw-r--r--. 1 hadoop hadoop  0 May  3 00:27 _SUCCESS
[hadoop@hadoop001 azkabantest]$ vim output1/part-r-00000.bz2
hao     2
he      1
hello   1
hellow  1
ni      1
word    3 、       

5.4 如何修改已经上传的flow?

在这里插入图片描述
在这里插入图片描述

5.5 如何给flow添加调度?

如下图,可非常方便的为flow添加相应的调度

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

5.6 如何给调度配置邮箱告警?

如下图,可以根据不同的规则配置告警信息.

在这里插入图片描述
在这里插入图片描述

5.7 如何只跑flow中的某个作业?

如下图,下来列表中的job点击相应的run即可,在某个作业跑挂了,修复数据是方便。

在这里插入图片描述

5.8关于flow执行的一些有用的配置

在这里插入图片描述

  • Page View:(重要)作业的执行视图,可知设置哪些作业执行哪些不执行
  • Notification:设置邮件通知,在workfow执行成功或者失败时都可以设置邮件通知
  • Failure Option:(重要)某个作业执行失败时操作,生产上选择Cancel - - All,kill所有的作业不管跑没跑
  • concurrent:设置工作流的并发
  • Flow Parameters:设置工作流的参数,覆盖是全局的setting

总结:

  • 以上是Azkaban的安装以及简单使用的过程,无论是学习还是生产使用都是有很大的帮助,
  • 对于生产上Oozie与Azkaban的选择,个人倾向于更加轻量简单的后者
  • 两种工作流框架都是有个致命的缺点,不能完全的面向用户,用户是不知道hadoop.jar那些东西的,若用户能够在页面拖拽拉实现flow的配置那就更加的完美了,而且还要集成短信,故大公司都是自研工作流框架。
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
安装和配置Azkaban 3.84.4的步骤如下: 1. 下载Azkaban 3.84.4的安装包。可以从引用\[1\]中提供的链接下载,或者从其他可靠的来源获取。 2. 解压安装包。根据引用\[1\]和引用\[2\]的指示,使用tar命令解压安装包,并将解压后的文件夹重命名。 3. 选择Mysql作为Azkaban的数据库。根据引用\[3\]的建议,使用Mysql作为Azkaban的数据库,因为它提供了一些增强功能和可靠性。 4. 创建安装目录。根据引用\[3\]的指示,创建一个目录来存放Azkaban的安装文件。 5. 解压并重命名其他组件。根据引用\[2\]和引用\[3\]的指示,解压并重命名Azkaban的其他组件,如执行服务器和Web服务器。 6. 发送SQL文件。根据引用\[3\]的指示,将创建所有SQL文件发送到指定的目录。 7. 导入Azkaban脚本。根据引用\[3\]的指示,使用Azkaban脚本导入所需的配置。 请根据上述步骤进行Azkaban 3.84.4的安装和配置。 #### 引用[.reference_title] - *1* *2* [Azkaban-3.84.4 兼容 mysql-8.0](https://blog.csdn.net/qq_33316544/article/details/125074262)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [黑猴子的家:Centos7 安装部署 Azkaban 3.84.4](https://blog.csdn.net/qq_28652401/article/details/117772402)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值