大数据局执行引擎MR、Tez和Spark对比

清平乐的技术博客

已于 2022-04-26 13:32:36 修改

阅读量9.6k

点赞数 4

分类专栏：大数据开发大数据运维文章标签：大数据 java

于 2020-12-23 16:52:51 首次发布

本文链接：https://blog.csdn.net/ZZQHELLO2018/article/details/111593822

版权

大数据运维同时被 2 个专栏收录

56 篇文章 8 订阅

订阅专栏

大数据开发

40 篇文章 11 订阅

订阅专栏

MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”。

Tez

Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。总结起来，Tez有以下特点：

（1）Apache二级开源项目
（2）运行在YARN之上
（3）适用于DAG（有向图）应用（同Impala、Dremel和Drill一样，可用于替换Hive/Pig等）

如下图：
在这里插入图片描述
传统的MR（包括Hive，Pig和直接编写MR程序）。假设有四个有依赖关系的MR作业（1个较为复杂的Hive SQL语句或者Pig脚本可能被翻译成4个有依赖关系的MR作业）或者用Oozie描述的4个有依赖关系的作业，运行过程如下（其中，绿色是Reduce Task，需要写HDFS）：

云状表示写屏蔽（write barrier，一种内核机制，持久写）

Tez可以将多个有依赖的作业转换为一个作业（这样只需写一次HDFS，且中间节点较少），从而大大提升DAG作业的性能

Spark与tez比较

使用场景：

spark号称比mr快100倍，而tez也号称比mr快100倍；二者性能都远超MR。
park与tez都是以dag方式处理数据
spark更像是一个通用的计算引擎，提供内存计算，实时流处理，机器学习等多种计算方式，适合迭代计算
tez作为一个框架工具，特定为hive和pig提供批量计算

弊端：

spark属于内存计算，支持多种运行模式，可以跑在standalone，yarn上；而tez只能跑在yarn上；虽然spark与yarn兼容，但是spark不适合和其他yarn应用跑在一起
tez能够及时的释放资源，重用container，节省调度时间，对内存的资源要求率不高；而spark如果存在迭代计算时，container一直占用资源；