Spark-Shuffle

本文介绍了Spark中的Shuffle过程,重点讨论了HashShuffleManager和SortShuffleManager的区别。HashShuffleManager在shuffle write阶段会产生大量小文件,可能导致内存压力和磁盘IO问题,适合小数据集。而SortShuffleManager通过索引文件优化了这一情况,减少了磁盘文件数量,提升了大规模数据处理的性能。
摘要由CSDN通过智能技术生成

Spark-Shuffle理解

     对spark任务划分阶段,遇到宽依赖会断开,所以在stage 与 stage 之间会产生shuffle,大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。

    负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager,也即shuffle管理器。而随着Spark的版本的发展,ShuffleManager也在不断迭代。

   ShuffleManager 大概有两个: HashShuffleManager 和 SortShuffleManager。

 历史:

                在spark 1.2以前,默认的shuffle计算引擎是HashShuffleManager;

                在spark 1.2以后的版本中,默认的ShuffleManager改成了SortShuffleManager;

                在spark 2.0以后,抛弃了 HashShuffleManager。

HashShuffleManager

假设:每个Executor只有1个CPU core,也就是说,无论这个Executor上分配多少个task线程,同一时间都只能执行一个task线程。

 上游 stage 有 2个 Executor,每个Executor 有 2 个 task。

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值