【Python3实战Spark大数据分析及调度】第10 11章 Azkaban基础/实战篇

Azkaban 基础篇

工作流概述:

  • 请假、借款
  • JavaEE:jBPM、Activiti
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
工作流调度系统的重要性

在这里插入图片描述
crontab的问题和优势:
对于定时调度能够很好的执行,但是对于依赖调度束手无策,只能够估计时间
在这里插入图片描述
常用的调度框架:
Azkaban LinkedIn开源
Oozie apache开源
Zeus 阿里开源
在这里插入图片描述

Azkaban 概述:
在这里插入图片描述
特点
注意模块化和可插拔特性
在这里插入图片描述

Azkaban 架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

WebServer主要是界面
在这里插入图片描述
在这里插入图片描述

Azkaban 运行模式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

测试

首先创建project

在这里插入图片描述
在Projects中可以看到
在这里插入图片描述
点进去后,点upload文件

在这里插入图片描述

选择zip包

在这里插入图片描述
upload后点击Execute flow
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
点击Execute
在这里插入图片描述
显示执行成功了
在这里插入图片描述

点进去看一下
在这里插入图片描述

Flow Log

在这里插入图片描述
再点job list 中的details

在这里插入图片描述

可以看到输出了Hello World
在这里插入图片描述

Azkaban实战篇

Dependency 作业

Dependencies是任务的依赖,表示执行之前需要先执行的任务
在这里插入图片描述
在这里插入图片描述
同样的套路
在这里插入图片描述
在这里插入图片描述
有Dependencie时,名称是以最后一个job的名字为准的
在这里插入图片描述
点击Execute
在这里插入图片描述
在这里插入图片描述
成功了后job list
在这里插入图片描述
job bar中成功输出了bar

在这里插入图片描述

HDFS 作业

在这里插入图片描述
在这里插入图片描述
同样的方式将zip放在Azkaban上进行Execute,成功输出hadoop命令
在这里插入图片描述

MapReduce 作业

执行Hadoop任务
在这里插入图片描述
注意放在job中的时候路径要写全
在这里插入图片描述
进行压缩
在这里插入图片描述
如果command写错了,也可以直接在Azkaban中进行修改
在这里插入图片描述
在这里插入图片描述
试一下Hadoop的wordcount
在这里插入图片描述
在这里插入图片描述
改写一下job文件
在这里插入图片描述
试用edit在Azkaban中修改command
在这里插入图片描述
再跑一遍,成功执行
在这里插入图片描述

Hive作业

一份txt文件

在这里插入图片描述
建表的HQL语法如下
在这里插入图片描述
将数据写入表中
在这里插入图片描述
Hive中执行sql语句
在这里插入图片描述
创建test.sql
在这里插入图片描述
把sql和hive job打包
在这里插入图片描述
放入Azkaban中运行,成功执行
在这里插入图片描述

定时作业

找到执行时的Schedule
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在Scheduling模块可以看到调度
在这里插入图片描述
有显示调度的具体时间
在这里插入图片描述

邮件告警

还是到Execute flow 中来
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Azkaban中的SLA设置
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值