大数据Shuffle原理

01.Shuffle概述

MapReduce概述

·2004年,谷歌发布了《MapReduce:Simplified Data Processing on Large Clusters》论文

·在开源实现的MapReduce中,存在Map、Shuffle、Reduce三个阶段。

·Map阶段,是在单机上进行的针对一小块数据的计算过程,简单来说呢,就是按照给定的方法进行筛选分类;

·Shuffle 阶段,在map阶段的基础上,进行数据移动,为后续的reduce阶段做准备,也就是说,map阶段将几个小块数据分类完成后,shuffle将同类型的数据进行合并;

·Reduce阶段,对移动后的数据进行处理,依然是在单机上处理一小份数据,举个例子,对Shuffle得到的合并后的数据进行count,得到sum值。

Shuffle对性能非常重要体现在以下几个方面:
·MR次网络连接--每一个reduce都要访问所有的map来获取对应的数据,同样带来的还有等次的网络请求
·大量的数据移动--M
R次数据移动
·数据丢失风险--移动和计算的过程中,存在丢失的风险
·可能存在大量的排序操作
·大量的数据序列化、反序列化操作--消耗大量cpu
·数据压缩--在存储大量数据过程中,压缩与解压缩也会占用大量CPU

02.Shuffle算子

  • 常见的触发shuffle的算子
    • repartition
      • coalesce、repartition
    • ByKey
      • groupByKey、reduceByKey、aggregateByKey、combineByKey、sortByKeysortBy
    • Join
      • cogroup、join
    • Distinct
      • distinct

tip : distinct算子可以看作特殊的bykey算子

Spark中对shuffle的抽象 - 宽依赖、窄依赖

窄依赖: 父RDD的每个分片至多被子RDD中的一个分片所依赖

宽依赖: 父RDD中的分片可能被子RDD中的多个分片所依赖

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值