MapReduce与Spark的shuffle的比较

最新推荐文章于 2021-03-07 16:41:32 发布

一个不会写代码的小黑

最新推荐文章于 2021-03-07 16:41:32 发布

阅读量242

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_37332702/article/details/88972583

版权

Spark 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

                    
                        
                    
                    对比方向MapReduceSparkHash
collect在内存中构造了一块数据结构用于map输出的缓冲区没有环形缓冲
sortmap输出的数据排序map数据没有排序
merge对磁盘上的多个spill文件最后进行合并成一个输出文件在map端没有merge过程，
copy框架jettynetty或者直接socket流
本地文件通过网络拖取数据不通过网络框架，对于本节点上的map输出文件，采用本地读取的方式
copy过来的数据存放位置，先放在内存，内存放不下是写道磁盘一种方式全部放在内存；另一种方式先放在内存，放不下时写到 磁盘
merge sort最后会对磁盘文件和内存中的数据进行合并排序对采用另一种方式时也会有合并排序的过程

                

对比方向	MapReduce	SparkHash
collect	在内存中构造了一块数据结构用于map输出的缓冲区	没有环形缓冲
sort	map输出的数据排序	map数据没有排序
merge	对磁盘上的多个spill文件最后进行合并成一个输出文件	在map端没有merge过程，
copy	框架jetty	netty或者直接socket流
本地文件	通过网络拖取数据	不通过网络框架，对于本节点上的map输出文件，采用本地读取的方式
copy	过来的数据存放位置，先放在内存，内存放不下是写道磁盘	一种方式全部放在内存；另一种方式先放在内存，放不下时写到磁盘
merge sort	最后会对磁盘文件和内存中的数据进行合并排序	对采用另一种方式时也会有合并排序的过程

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一个不会写代码的小黑

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
MapReduce与Spark的shuffle的比较

对比方向MapReduceSparkHashcollect在内存中构造了一块数据结构用于map输出的缓冲区没有环形缓冲sortmap输出的数据排序map数据没有排序merge对磁盘上的多个spill文件最后进行合并成一个输出文件在map端没有merge过程，copy框架jettynetty或者直接socket流本地文件通过网络拖取数据...
复制链接

扫一扫