【Python3实战Spark大数据分析及调度】第10 11章 Azkaban基础/实战篇

Melo丶

于 2019-11-29 13:33:34 发布

阅读量305

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38611497/article/details/103291210

版权

spark 专栏收录该内容

15 篇文章 3 订阅

订阅专栏

Azkaban 基础篇

工作流概述：

请假、借款
JavaEE：jBPM、Activiti

在这里插入图片描述
工作流调度系统的重要性

在这里插入图片描述
crontab的问题和优势：
对于定时调度能够很好的执行，但是对于依赖调度束手无策，只能够估计时间

常用的调度框架：
Azkaban LinkedIn开源
Oozie apache开源
Zeus 阿里开源

Azkaban 概述：
在这里插入图片描述
特点
注意模块化和可插拔特性

Azkaban 架构

在这里插入图片描述

WebServer主要是界面
在这里插入图片描述

Azkaban 运行模式

在这里插入图片描述

在这里插入图片描述

测试

首先创建project

在这里插入图片描述
在Projects中可以看到

点进去后，点upload文件

在这里插入图片描述

选择zip包

在这里插入图片描述
upload后点击Execute flow

点击Execute

显示执行成功了

点进去看一下
在这里插入图片描述

Flow Log

在这里插入图片描述
再点job list 中的details

在这里插入图片描述

可以看到输出了Hello World
在这里插入图片描述

Azkaban实战篇

Dependency 作业

Dependencies是任务的依赖，表示执行之前需要先执行的任务
在这里插入图片描述

同样的套路

有Dependencie时，名称是以最后一个job的名字为准的

点击Execute

成功了后job list

job bar中成功输出了bar

在这里插入图片描述

HDFS 作业

在这里插入图片描述

同样的方式将zip放在Azkaban上进行Execute，成功输出hadoop命令

MapReduce 作业

执行Hadoop任务
在这里插入图片描述
注意放在job中的时候路径要写全

进行压缩

如果command写错了，也可以直接在Azkaban中进行修改

试一下Hadoop的wordcount

改写一下job文件

试用edit在Azkaban中修改command

再跑一遍，成功执行

Hive作业

一份txt文件

在这里插入图片描述
建表的HQL语法如下

将数据写入表中

Hive中执行sql语句

创建test.sql

把sql和hive job打包

放入Azkaban中运行，成功执行

定时作业

找到执行时的Schedule
在这里插入图片描述

在Scheduling模块可以看到调度

有显示调度的具体时间

邮件告警

还是到Execute flow 中来
在这里插入图片描述

Azkaban中的SLA设置

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。