Spark Shuffle(基础)过程

本文介绍了Spark Shuffle的基础知识,包括其发展历史,从Hash Based Shuffle V1、V2到BypassMergeSortShuffleWriter、UnsafeShuffleWriter和SortShuffleWriter的演变。详细阐述了各种Shuffle方式的工作原理,如内存缓冲、磁盘文件生成、数据排序和网络IO,并讨论了相关参数及其优化策略。
摘要由CSDN通过智能技术生成

介绍

Shuffle过程是进行数据的重组和排序,这是一个非常消耗资源的过程,包括磁盘IO、数据序列化和反序列化、网络IO。在Spark中Shuffle定义为一系列map任务和reduce任务,map任务负责组织数据,通常称为Shuffle Write,reduce任务负责聚合统计数据,通常称为Shuffle Read。
Spark Shuffle行为和Hadoop MapReduce中Shuffle过程基本一致,Map端为Shuffle提供数据,Reduce端负责接收Shuffle生成的数据。用户提交的Spark程序会被解析成DAG图,根据RDD依赖关系划分成多个Stage,Shuffle就发生在Stage之间。

Shuffle方式的发展史

Spark 1.1版本和以前版本默认是Hash Based Shuffle
Spark1.2 版本默认是Sort Based Shuffle
Spark2.0 版本废弃Hash Based Shuffle
Spark 2.1 版本三种Shuffle Writer:BypassMergeSortShuffleWriter、SortShuffleWriter、UnsafeShuffleWriter

Hash Based Shuffle V1

Hash Shuffle最初版本中,按照Hash方式进行分区,每一个map任务会产生reduce个数的临时文件,最终会生成map x reduce个临时文件,因此大量临时文件为CPU和磁盘带来了巨大的消耗,称为了计算的瓶颈。
Task运行过程:
Shuffle Write:在map任务中按照数据key取hash值,并对red

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值