大数据课程K6——Spark的Shuffle详解

最新推荐文章于 2024-08-26 17:41:15 发布

伟雄

最新推荐文章于 2024-08-26 17:41:15 发布

阅读量533

点赞数

文章标签：大数据 spark 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013955758/article/details/132329628

版权

本文详细探讨了Spark Shuffle的原理，包括Shuffle的目的、Write阶段的Hash和Sort两种模式及其优缺点。重点介绍了Sort Based Shuffle的实现，以及如何通过配置参数优化Shuffle性能，如设置`spark.shuffle.manager`、`spark.shuffle.memoryFraction`等。同时，还提到了Hadoop插件的配置方法，以提高Shuffle效率。

摘要由CSDN通过智能技术生成

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 了解Spark的定义&&特点&&目的&&优缺点；

⚪ 掌握Spark的相关参数配置；

⚪ 掌握Hadoop的插件配置；

一、Spark Shuffle详解

1. 概述

Shuffle，就是洗牌。之所以需要Shuffle，还是因为具有某种共同特征的一类数据需要最终汇聚（aggregate）到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单元处理。

以最简单的Word Count为例，其中数据保存在Node1、Node2和Node3。

经过处理后，这些数据最终会汇聚到Nodea、Nodeb处理，如下图所示：

这个数据重新打乱然后汇聚到不同节点的过程就是Shuffle。但是实际上，Shuffle过程可能会非常复杂：

1. 数据量会很大，比如单位为TB或PB的数据分散到几百甚至数千、数万台机器上。

2. 为了将这个数据汇聚到正确的节点，需要将这些数据放入正确的Partition，因为数据大小经常大于节点的内存，因此这个过程中可能会发生多次硬盘续写。

3. 为了节省带宽，这个数据可能需要压缩，如何在压缩率和压缩解压时间中间做一个比较好的选择？

4. 数据需要通过网络传输，因此数据的序列化和反序列化也变得相对复杂。

一般来说，每个Task处理的数据可以完全载入内存（如果不能，可以减小每个Partition的大小），因此Task可以做到在内存中计算。但是对于Shuffle来说，如果不持久化这个中间结果，一旦数据丢失，就需要重新计算依赖的全部RDD。因此有必要持久化这个中间结果。所以这就是为什么Shuffle过程会产生文件的原因。

如果Shuffle过程不落地，①可能会造成内存溢出，②当某分区丢失时，会重新计算所有父分区数据。

2. Shuffle Write

Shuffle Write，即数据时如何持久化到文件中，以使得下游的Task可以获取到其需要处理的数据的（即 Shuffle Read）。在Spark 0.8之前，Shuffle Write是持久化到缓存的，但后来发现实际应用中ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据课程K6——Spark的Shuffle详解

在Spark 0.8之前，Shuffle Write是持久化到缓存的，但后来发现实际应用中，Shuffle过程带来的数据通常是巨量的，所以经常会发生内存溢出的情况，所以在Spark 0.8以后，Shuffle Write会将数据持久化到硬盘，再之后Shuffle Write不断进行演进优化，但是数据落地到本地文件系统的现实并没有改变。因为在很多运算场景中并不需要排序，因此多余的排序只能使性能变差，比如Hadoop的Map Reduce就是这么实现的，也就是Reducer拿到的数据都是已经排序好的。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。