Spark实战教程基础之RDD

猫猫姐

已于 2024-07-29 15:58:33 修改

阅读量588

点赞数 10

分类专栏： Spark实战文章标签： spark 大数据

于 2024-07-29 15:56:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84052244/article/details/140773293

版权

Spark实战教程基础之RDD

RDD 可以说是 Spark 中最基础的概念了，使用 Spark 的开发者想必对 RDD 都不陌生，甚至提起 RDD，你的耳朵可能都已经听出茧子了。不过，随着 Spark 开发 API 的演进和发展，现在上手开发基本都是 DataFrame 或 Dataset API。所以很多初学者会认为，“反正 RDD API 基本都没人用了，我也没必要弄明白 RDD 到底是什么。

RDD 为何如此重要

首先，RDD 作为 Spark 对于分布式数据模型的抽象，是构建 Spark 分布式内存计算引擎的基石。很多 Spark 核心概念与核心组件，如 DAG 和调度系统都衍生自 RDD。因此，深入理解 RDD 有利于你更全面、系统地学习 Spark 的工作原理。

其次，尽管 RDD API 使用频率越来越低，绝大多数人也都已经习惯于 DataFrame 和 Dataset API，但是，无论采用哪种 API 或是哪种开发语言，你的应用在 Spark 内部最终都会转化为 RDD 之上的分布式计算。换句话说，如果你想要在运行时判断应用的性能瓶颈，前提是你要对 RDD 足够了解。还记得吗？定位性能瓶颈是 Spark 性能调优的第一步。

不仅如此，对于 RDD 不求甚解还有可能带来潜在的性能隐患，接下来，我们就从一个反例入手，一起来分析一下。

RDD

是弹性分布式数据集（Resilient Distributed Dataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型；
RDD 是 Spark 最核心的数据结构，RDD（Resilient Distributed Dataset）全称为弹性分布式数据集，是 Spark 对数据的核心抽象，也是最关键的抽象，它实质上是一组分布式的 JVM 不可变对象集合，不可变决定了它是只读的，所以 RDD 在经过变换产生新的 RDD 时，（如下图中 A-B），原有 RDD 不会改变。

弹性的意思是

最低0.47元/天解锁文章

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Spark实战教程基础之RDD

RDD 是一个数据集的表示，不仅表示了数据集，还表示了这个数据集从哪来，如何计算分区列表计算函数依赖关系分区函数(默认是hash最佳位置分区列表、分区函数、最佳位置，这三个属性其实说的就是数据集在哪，在哪计算更合适，如何分区；计算函数、依赖关系，这两个属性其实说的是数据集怎么来的。
复制链接

扫一扫

专栏目录

猫猫姐 CSDN认证博客专家 CSDN认证企业博客

码龄120天

148: 原创

17万+: 周排名

1万+: 总排名

5万+: 访问

: 等级

2490: 积分

880: 粉丝

893: 获赞

9: 评论

374: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据仓库—ETL工具与技术：数据仓库的坚实基石
Byyyi耀: 感谢分享，学到了很多新东西，期待更多的好文章！想和您互关一下。
数据仓库—ETL工具与技术：数据仓库的坚实基石
Byyyi耀: 感谢分享，学到了很多新东西，期待更多的好文章！想和您互关一下。
数据仓库—大数据建模
Byyyi耀: 大佬互关吗？非常不错的文章，解决了我大问题！赞一个！
数仓建模—表设计规范
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618591269。
数仓建模—大数据建模
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。