简述RDD

cluse_ld

已于 2022-09-21 11:04:16 修改

阅读量412

点赞数

分类专栏： spark 文章标签：大数据 spark hadoop

于 2022-08-19 16:56:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Laoddaaa/article/details/126427101

版权

RDD（Resilient Distributed Dataset）是Spark中的基础组件，具备弹性、容错和并行计算特性。它作为不可变数据集，存储在集群的不同节点上，支持内存与磁盘自动切换，数据丢失可恢复。RDD的计算逻辑封装在内部，通过分区列表、分区函数和依赖关系组织，可以自定义分区器和首选位置。Spark执行时，将计算任务分配给计算节点，实现分布式计算。

摘要由CSDN通过智能技术生成

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变的、可分区、元素可并行计算的集合。

弹性
- 存储的弹性：内存与磁盘的自动切换。Spark在执行任务的时候会将数据放在内存中，提高效率。但是不能占满内存，这时候就会自动切换为磁盘存储了；
- 容错的弹性：数据丢失可以自动恢复。根据血缘自动恢复；
- 计算的弹性：计算出错重试机制。出错了可以根据之前的逻辑进行重试；
- 分片的弹性：可根据需要重新分片。比如根据executor数重新进行分区，以提高资源利用率和效率；
分布式：数据存储在大数据集群不同节点上
数据集：RDD封装了计算逻辑，并不保存数据
数据抽象：RDD是一个抽象类，需要子类具体实现
不可变：RDD封装了计算逻辑，是不可变的，想要改变，只能产生新的RDD，在新的RDD里面封装计算逻辑
可分区、并行计算

RDD核心属性

分区列表
RDD数据结构中存在分区列表，用于执行任务时并行计算，是实现分布式计算的重要属性。
分区计算函数
Spark在计算时，是使用分区函数对每一个分区进行计算
RDD之间的依赖关系
RDD是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个RDD建立依赖关系。
分区器（可选）

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简述RDD

简述RDD
复制链接

扫一扫

专栏目录

cluse_ld CSDN认证博客专家 CSDN认证企业博客

码龄3年

187: 原创

32万+: 周排名

43万+: 总排名

5万+: 访问

: 等级

1899: 积分

8: 粉丝

22: 获赞

15: 评论

83: 收藏

私信

关注

热门文章

分类专栏

23春招复习 2篇
大数据面经 2篇
zookeeper 5篇
计算机网络 4篇
jdk 3篇
集合 3篇
LeetCode 27篇
spark 18篇
hive 10篇
MapReduce 5篇
JUC 15篇
JVM 1篇
剑指 Offer 60篇
scala 4篇
hbase 2篇
sqoop 1篇
kafka 8篇
flume 3篇
hadoop 4篇
Yarn 2篇
hdfs 5篇

最新评论

携程面经1
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
ArrayList和LinkedList的区别
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
同步锁的分类
路遥万里: 太全面了吧
CC23 最长的连续元素序列长度
cluse_ld: 你不是我第一个铁粉天理难容
CC23 最长的连续元素序列长度
路遥万里: 博主666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。