Spark中RDD是什么？

最新推荐文章于 2024-05-21 00:15:00 发布

小飞猪小肥猪

最新推荐文章于 2024-05-21 00:15:00 发布

阅读量186

点赞数

分类专栏：大数据 Spark

大数据同时被 2 个专栏收录

51 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

一、RDD是什么？
RDD是一个弹性可复原的分布式数据集！

RDD是一个逻辑概念，一个RDD中有多个分区，一个分区在Executor节点上执行时，他就是一个迭代器。

一个RDD有多个分区，一个分区肯定在一台机器上，但是一台机器可以有多个分区，我们要操作的是分布在多台机器上的数据，而RDD相当于是一个代理，对RDD进行操作其实就是对分区进行操作，就是对每一台机器上的迭代器进行操作，因为迭代器引用着我们要操作的数据！

二、RDD的五大特性
RDD是由多个分区组成的集合

每个分区上会有一个函数作用在上面，实现分区的转换

RDD与RDD之间存在依赖关系，实现高容错性

如果RDD里面装的是（K-V）类型的，有分区器

如果从HDFS这种文件系统中创建RDD，会有最佳位置，是为了数据本地化

转发
作者：一个萝卜丶
来源：CSDN
原文：https://blog.csdn.net/qq_41050480/article/details/79856266

小飞猪小肥猪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。