用通俗的语言解释下：Spark 中的 RDD 是什么

最新推荐文章于 2024-01-03 21:24:18 发布

木鸟杂记

最新推荐文章于 2024-01-03 21:24:18 发布

阅读量981

点赞数 2

分类专栏：分布式点滴文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qingtengmuniao/article/details/125795287

版权

RDD（Resilient Distributed Dataset）是Spark中的核心概念，是不可变、分布式的数据集，基于内存计算以降低延迟。RDD通过变换算子和终结算子进行数据处理，形成有向无环图（DAG）进行任务调度。 Shuffle算子会打断流水线，Spark以Stage为单位进行调度，提高并发。理解RDD的本质有助于掌握Spark的计算模型。

摘要由CSDN通过智能技术生成

RDD，学名可伸缩的分布式数据集（Resilient Distributed Dataset）。初次听闻，感觉很高深莫测。待理解其本质，却发现异常简洁优雅。本文试图对其进行一个快速侧写，试图将这种大数据处理中化繁为简的美感呈现给你。

RDD 是什么

RDD 本质上是对数据集的某种抽象。

RDD 将数据集合进行三层组织：Dataset（数据集）- Partition（分片）- Record（单条记录）。三是一个很合适的层数，每层都有其着力点，多了显冗余，少了力不够。

举个生活中例子，高中某个班级（Dataset），我们把他们按列分成四个小组（Partition），每个小组有大概十来个同学（Record）。任何一群人来了，我们都可以以这种形式将其进行组织。同样，任何一个数据集，我们也可以按类似的三个层级进行划分。

RDD 是基于内存的分布式的数据集。

单机资源总是有限的，RDD 生来就是为多机而设计的。将数据集划分为多个分片（Partition），就是为了能让一个数据集分散到不同机器上，从而利用多个机器的存储和计算资源，对数据进行并行处理。此外，分片还可以隔离故障阈，当某个机器故障后，只需要恢复该机器上对应分片即可，其他机器的分片不受影响。

相比 HDFS 或

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。