Spark RDD 的 shuffle 和分区

最新推荐文章于 2022-09-13 12:49:10 发布

腹黑客

最新推荐文章于 2022-09-13 12:49:10 发布

阅读量700

点赞数 1

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29342297/article/details/112238914

版权

本文详细探讨了Spark RDD的分区操作及其在并行计算中的作用，阐述了分区与Shuffle的关系，并深入讲解了Spark中的Shuffle机制，包括Hash base和Sort base两种Shuffle原理，以及如何通过repartition和coalesce算子调整RDD的分区数。

摘要由CSDN通过智能技术生成

Spark RDD 的 shuffle 和分区

分区的作用

RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分区数, 分区模式等一一对应。

分区和 Shuffle 的关系

分区的主要作用是用来实现并行计算, 本质上和 Shuffle 没什么关系, 但是往往在进行数据处理的时候, 例如reduceByKey, groupByKey等聚合操作, 需要把 Key 相同的 Value 拉取到一起进行计算, 这个时候因为这些 Key 相同的 Value 可能会坐落于不同的分区, 于是理解分区才能理解 Shuffle 的根本原理

Spark 中的 Shuffle 操作的特点

只有 Key-Value 型的 RDD 才会有 Shuffle 操作, 例如 RDD[(K, V)], 但是有一个特例, 就是 repartition 算子可以对任何数据类型 Shuffle
早期版本 Spark 的 Shuffle 算法是 Hash base shuffle, 后来改为 Sort base shuffle, 更适合大吞吐量的场景

RDD 分区操作

spark-shell --master local[8]命令中，生成了1个Executors的数量，这个Executors 有8个Cores,所以默认会有8个tasks,每个Cores对应一个

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
Spark RDD 的 shuffle 和分区

Spark RDD 的 shuffle 和分区分区的作用RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分区数, 分区模式等一一对应。分区和 Shuffle 的关系分区的主要作用是用来实现并行计算, 本质上和 Shuffle 没什么关系, 但是往往在进行数据处理的
复制链接

扫一扫

专栏目录

博客等级

码龄9年

112
原创

40
点赞

183
收藏

39
粉丝

关注

私信

分类专栏

spark 8篇
scala 7篇
kafka 4篇
操作系统 12篇
flink 21篇

最新评论

Linux命令快速复习
张小鱼༒: 博主，你的这个lsdt命令咋使用的？这个在Linux里面咋使用？
kafka快速入门
SiegfriedG: 如果某一个分区有三个副本因子，就算其中一个挂掉，那么只会剩下的两个钟，两个钟什么意思啊
Flink 快速入门案例(参考官方文档)
Lzzzii: 你好，为什么我直接运行控制台没反应呢
python3用mysqlclient连接mysql数据库操作问题
IT包工头hyh: 你安装的mysqlclint，为啥用的是mysqldb呢
Flink - Table API 之 window (窗口)
KledLi: 好家伙直接把官方文档粘过来

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。