RDD基础概念特点以及设计RDD的目的

最新推荐文章于 2023-07-14 14:10:58 发布

daladalabao

最新推荐文章于 2023-07-14 14:10:58 发布

阅读量623

点赞数 1

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45450889/article/details/131441532

版权

spark 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Spark的RDD（弹性分布式数据集）是Spark提供的一种用于分布式计算的抽象数据类型。它是一个由分区数据组成的不可变分布式集合，可以在集群中进行并行操作。RDD具有以下几个重要特点：

可以容错：RDD可以自动对数据进行分区和备份，从而保证在集群中的任意节点出现故障时能够进行故障恢复。
可以在内存中缓存：RDD可以将数据集保留在内存中，这样可以加快数据的访问速度，提高计算性能。
支持多种操作：RDD支持两种类型的操作：转换（Transformation）和动作（Action）。转换操作会生成一个新的RDD，而动作操作会触发计算并返回结果。
惰性计算：RDD采用惰性计算的方式，只有在遇到动作操作时才会开始计算，这样可以优化计算过程，避免不必要的计算。

RDD的设计初衷是为了解决Hadoop中的两个问题：1）需要频繁地将数据写入磁盘，导致性能较低；2）只支持MapReduce模型，不方便进行迭代计算。因此，Spark采用内存计算和支持多种操作的RDD模型来提供更高的性能和更强的计算能力。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。