[bigdata-006] 工作流 tez和oozie

1.  基本状况
Tez是Hortonworks开发的。
董西成的分析 http://dongxicheng.org/mapreduce-nextgen/apache-tez/
http://zh.hortonworks.com/blog/introducing-tez-faster-hadoop-processing/
tez运行在Yarn上的,DAG工作流,底层设计,对Map和Reduce进一步拆分。Map拆成Input,Processor, Sort, Merger, Output,Reduce拆分成Input, Shuffle, Sort, Merger, Processor和Output。拆分后的单元可以任意组合,组装成大的DAG作业。目标,替换性能较为低下的Hive和Pig。

Tez被Hortonworks用户Hive引擎优化,产生了一个性能很强的新项目Stinger,经过测试,性能提升了100倍。
http://zh.hortonworks.com/blog/100x-faster-hive/

(Tez+hive)和(Impala, Dremel和Drill)都是为了解决hive/pig的低性能问题。前者使用MapReduce框架对GAG裁剪优化,后者抛弃MapReduce,直接从DataNode取数据,传统数据库的方式。

Tez和Oozie的差别:Tez是偏向底层的,Oozie偏向顶层,它是对MR, Hive, Pig等进行DAG作业设计,将各种工具实现的功能组合在一起。


2. 更多细节
http://dongxicheng.org/mapreduce-nextgen/apache-tez-newest-progress/
(1) 丰富的数据流(dataflow,NOT Streaming!)编程接口;
(2) 扩展性良好的“Input-Processor-Output”运行模型;
(3) 简化数据部署(充分利用了YARN框架,Tez本身仅是一个客户端编程库,无需事先部署相关服务)
(4) 性能优于MapReduce
(5)  优化的资源管理(直接运行在资源管理系统YARN之上)
(6) 动态生成物理数据流(dataflow)

其中,3非常有吸引力。
(1)Tez官方网站:http://tez.incubator.apache.org/
(2)Tez官方文档:https://issues.apache.org/jira/secure/attachment/12588887/Tez%20Design%20v1.1.pdf
(3)Tez SVN:https://issues.apache.org/jira/browse/TEZ


3. 评估:
3.1 优先使用优化后的Hive,也就是Stinger。
3.2 次之使用impala, drill。主要考虑到扩展性和迁移性。



4. Oozie
官网 http://oozie.apache.org/


5. 为什么有tez?

我认为是这样的:CDH有一个高效的Impala可以替代Hive,那么HDP也就必须有一个性能对等的替代Hive的工具,否则在竞争上就有劣势,于是Hortonworks就发明了tez。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 从零开始讲解大数据调度系统构成,集成大数据计算任务构建大数据工作,基于Oozie构建实现企业级自动化任务开发 课程亮点 1,知识体系完备,从小白到大神各阶段读者均能学有所获。 2,生动形象,化繁为简,讲解通俗易懂。 3,结合工作实践及分析应用,培养解决实际问题的能力。 4,每一块知识点, 都有配套案例, 学习不再迷茫。 适用人群 1、对大数据感兴趣的在校生及应届毕业生。 2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。 3、对大数据行业感兴趣的相关人员。 课程内容 第一章:工作任务调度系统 1.大数据调度系统概论 2.企业级工作 3.工作依赖调度 4.工作定时调度 第二章:企业级任务调度系统Oozie 1.Oozie的应用场景 2.Oozie的功能及模块 3.Oozie的与MR的关系 4.Oozie工作实现原理 5.Oozie中的特殊概念Action 6.Hadoop的集成配置 7.Oozie的部署配置 第三章:Oozie调度开发实战 1.Shell脚本工作调度开发实战 2.Hive Job工作调度开发实战 3.MapReduce工作调度开发实战 4.复杂工作调度实战 5.分支与合并逻辑控制组件 第四章:Oozie定时依赖调度 1.基于时间的任务调度 2.Coordinator时区配置 3.Coordinator任务实战开发 第五章:Oozie可视化开发 1.集成Hue配置 2.基于Hue构建Oozie工作开发实战 第六章:Oozie监控任务管理 1.Oozie任务的查看 2.Oozie任务的提交 3.Oozie任务的关闭

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值