工作流调度器 azkaban ---1.概述

最新推荐文章于 2022-11-01 17:30:21 发布

XiaodunLP

最新推荐文章于 2022-11-01 17:30:21 发布

阅读量179

点赞数

分类专栏： Azkaban

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/XiaodunLP/article/details/86764442

版权

目录

1.1、为什么需要工作流调度器

1.2、工作流调度实现方式

1.3、常见工作流调度系统

1.4、各种调度工具对比

1.5、Azkaban 与 Oozie 对比

1.6、Azkaban 介绍

1、概述

1.1、为什么需要工作流调度器

1、一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等

2、各任务单元之间存在时间先后及前后依赖关系

3、为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行

例如，我们可能有这样一个需求，某个业务系统每天产生 20G 原始数据，我们每天都要对其进行处理，处理步骤如下所示：

1、通过 Hadoop 先将原始数据同步到 HDFS 上；

2、借助 MapReduce 计算框架对原始数据进行清洗转换，生成的数据以分区表的形式存储到多张 Hive 表中；

3、需要对 Hive 中多个表的数据进行 JOIN 处理，得到一个明细数据 Hive 大表；

4、将明细数据进行各种统计分析，得到结果报表信息；

5、需要将统计分析得到的结果数据同步到业务系统中，供业务调用使用。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
工作流调度器 azkaban ---1.概述

目录1、概述 1.1、为什么需要工作流调度器 1.2、工作流调度实现方式 1.3、常见工作流调度系统 1.4、各种调度工具对比 1.5、Azkaban 与 Oozie 对比 1.6、Azkaban 介绍 1、概述 1.1、为什么需要工作流调度器 1、一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。