mapreduce、tez和spark三者比较

最新推荐文章于 2024-08-01 08:58:44 发布

L13763338360

最新推荐文章于 2024-08-01 08:58:44 发布

阅读量2.6k

点赞数 2

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L13763338360/article/details/106912743

版权

大数据专栏收录该内容

34 篇文章 0 订阅

订阅专栏

MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

Tez

Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Tez和Mapreduce

核心思想：MapReduce将一个算法抽象成Map和Reduce两个阶段进行处理；Tez将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等
依赖DAG：Mapreduce没有DAG一说，Tez将map和reduce阶段拆分成多个阶段，分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业
落地磁盘：MapReduce会有多次落地磁盘；Tez可以将多个有依赖的作业转换为一个作业，这样只需写一次HDFS，且中间节点较少

Tez和Spark区别

使用场景：spark更像是一个通用的计算引擎，提供内存计算，实时流处理，机器学习等多种计算方式，适合迭代计算；tez作为一个框架工具，特定为hive和pig提供批量计算
运行模式：spark属于内存计算，支持多种运行模式，可以跑在standalone，yarn上；而tez只能跑在yarn上；虽然spark与yarn兼容，但是spark不适合和其他yarn应用跑在一起
资源利用：tez能够及时的释放资源，重用container，节省调度时间，对内存的资源要求率不高；而spark如果存在迭代计算时，container一直占用资源；

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。