大数据Shuffle原理

最新推荐文章于 2024-07-24 21:35:32 发布

Popcorn丶30

最新推荐文章于 2024-07-24 21:35:32 发布

阅读量2.1k

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cblock1/article/details/126100482

版权

01.Shuffle概述

MapReduce概述

·2004年，谷歌发布了《MapReduce:Simplified Data Processing on Large Clusters》论文

·在开源实现的MapReduce中，存在Map、Shuffle、Reduce三个阶段。

·Map阶段，是在单机上进行的针对一小块数据的计算过程，简单来说呢，就是按照给定的方法进行筛选分类；

·Shuffle 阶段，在map阶段的基础上，进行数据移动，为后续的reduce阶段做准备，也就是说，map阶段将几个小块数据分类完成后，shuffle将同类型的数据进行合并；

·Reduce阶段，对移动后的数据进行处理，依然是在单机上处理一小份数据，举个例子，对Shuffle得到的合并后的数据进行count，得到sum值。

Shuffle对性能非常重要体现在以下几个方面：
·MR次网络连接--每一个reduce都要访问所有的map来获取对应的数据，同样带来的还有等次的网络请求
·大量的数据移动--MR次数据移动
·数据丢失风险--移动和计算的过程中，存在丢失的风险
·可能存在大量的排序操作
·大量的数据序列化、反序列化操作--消耗大量cpu
·数据压缩--在存储大量数据过程中，压缩与解压缩也会占用大量CPU

02.Shuffle算子

常见的触发shuffle的算子
- repartition
  - coalesce、repartition
- ByKey
  - groupByKey、reduceByKey、aggregateByKey、combineByKey、sortByKeysortBy
- Join
  - cogroup、join
- Distinct
  - distinct

tip : distinct算子可以看作特殊的bykey算子

Spark中对shuffle的抽象 - 宽依赖、窄依赖

窄依赖： 父RDD的每个分片至多被子RDD中的一个分片所依赖

宽依赖： 父RDD中的分片可能被子RDD中的多个分片所依赖

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
大数据Shuffle原理

Shuffle原理
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。