- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 Azkaban 3.62 安装
介绍Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。 它有三个重要组件: 1. 元数据数据库(目前仅支持my...
2018-11-27 18:13:06 2067
原创 Azkaban 总览
一、为什么需要工作流调度器1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等2、各任务单元之间存在时间先后及前后依赖关系3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行例如,我们可能有这样一个需求,某个业务系统每天产生 20G 原始数据,我们每天都要对其进行处理,处理步骤如...
2018-11-27 17:24:29 311
原创 Hive SQL on where 优化
1. select t.* from A f join B t on (f.id = t.id and f.分区=20181111 and t.分区=20181111)2. select t.* from (select id from A where 分区=20181111) fjoin(select * from B where 分区=20181111) ton (f.id = ...
2018-11-13 16:10:47 2605 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人