大数据开发:剖析Hadoop和Spark的Shuffle过程差异

本文详细解析了Hadoop和Spark的Shuffle过程,对比了两者在Shuffle阶段的差异。Hadoop的Shuffle包括排序、溢写、合并、拉取拷贝和合并排序,而Spark的Shuffle更为简化,不强求全局有序,分为write和read两步。Spark的ShuffleRead可以在所有ShuffleMapTask执行完毕后开始,采用HashMap实现局部聚合,而Hadoop在所有Map任务完成后即可开始Fetch并全局排序。
摘要由CSDN通过智能技术生成

一、前言

对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么要想求得某个key对应的全量数据,那就必须把相同key的数据汇集到同一个Reduce任务节点来处理,那么Mapreduce范式定义了一个叫做Shuffle的过程来实现这个效果。

二、编写本文的目的

本文旨在剖析Hadoop和Spark的Shuffle过程,并对比两者Shuffle的差异。

如果你正打算从事大数据,以下内容是你该了解的

 

想成为云计算大数据Spark高手,看这里!戳我阅读

年薪50W的Java程序员转大数据学习路线戳我阅读

大数据人工智能发展趋势与前景  戳我阅读

最全最新的大数据系统交流路径!!戳我阅读

2019最新!大数据工程师就业薪资,让人惊艳!戳我阅读

三、Hadoop的Shuffle过程

Shuffle描述的是数据从Map端到Reduce端的过程ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值