01.Shuffle概述
MapReduce概述
·2004年,谷歌发布了《MapReduce:Simplified Data Processing on Large Clusters》论文
·在开源实现的MapReduce中,存在Map、Shuffle、Reduce三个阶段。
·Map阶段,是在单机上进行的针对一小块数据的计算过程,简单来说呢,就是按照给定的方法进行筛选分类;
·Shuffle 阶段,在map阶段的基础上,进行数据移动,为后续的reduce阶段做准备,也就是说,map阶段将几个小块数据分类完成后,shuffle将同类型的数据进行合并;
·Reduce阶段,对移动后的数据进行处理,依然是在单机上处理一小份数据,举个例子,对Shuffle得到的合并后的数据进行count,得到sum值。
Shuffle对性能非常重要体现在以下几个方面:
·MR次网络连接--每一个reduce都要访问所有的map来获取对应的数据,同样带来的还有等次的网络请求
·大量的数据移动--MR次数据移动
·数据丢失风险--移动和计算的过程中,存在丢失的风险
·可能存在大量的排序操作
·大量的数据序列化、反序列化操作--消耗大量cpu
·数据压缩--在存储大量数据过程中,压缩与解压缩也会占用大量CPU
02.Shuffle算子
- 常见的触发shuffle的算子
- repartition
- coalesce、repartition
- ByKey
- groupByKey、reduceByKey、aggregateByKey、combineByKey、sortByKeysortBy
- Join
- cogroup、join
- Distinct
- distinct
- repartition
tip : distinct算子可以看作特殊的bykey算子
Spark中对shuffle的抽象 - 宽依赖、窄依赖
窄依赖: 父RDD的每个分片至多被子RDD中的一个分片所依赖
宽依赖: 父RDD中的分片可能被子RDD中的多个分片所依赖