spark-shuffle

最新推荐文章于 2023-03-04 15:49:25 发布

qq_26369213

最新推荐文章于 2023-03-04 15:49:25 发布

阅读量310

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26369213/article/details/79967730

版权

spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

shuffle 操作

Spark中的某些算子会触发一个名为shuffle的时间。Shuffle是spark一种重新分配数据的机制，便于不同分区之间进行分组。Shuffle都会涉及数据的序列化、磁盘IO 和网络IO，使得Shuffle成为一种复杂而昂贵的操作。

背景

为理解Shuffle过程中发生什么，举个reduceByKey的例子。reduceByKey操作生产一个新的RDD，组成一个键值对，对键值执行reduce函数，单个键对应的值往往不在同一个分区，甚至是跨节点的，但它们必须位于同一个分区才能计算出结果。

Spark中，在某些特定的操作中数据通常不会跨分区分布。在计算过程中，单个task将在单个partition中进行计算，在单个reduce task 中，需要在所有partition的组织数据，spark需要对所有partition进行操作，从中找到所有键对应的值，然后将所有partition的的值进行汇总，这个过程称为Shuffle。

Narrow（窄依赖）

一个父RDD的partition至多被子RDD的某个partition使用一次。

Wide（宽依赖）

一个父RDD的partition会被子RDD的某个partition使用多次。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-shuffle

shuffle 操作Spark中的某些算子会触发一个名为shuffle的时间。Shuffle是spark一种重新分配数据的机制，便于不同分区之间进行分组。Shuffle都会涉及数据的序列化、磁盘IO 和网络IO，使得Shuffle成为一种复杂而昂贵的操作。背景为理解Shuffle过程中发生什么，举个reduceByKey的例子。reduceByKey操作生产一个新的RDD，组
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。