Spark中RDD是什么?

一、RDD是什么?
RDD是一个弹性可复原的分布式数据集!

RDD是一个逻辑概念,一个RDD中有多个分区,一个分区在Executor节点上执行时,他就是一个迭代器。

一个RDD有多个分区,一个分区肯定在一台机器上,但是一台机器可以有多个分区,我们要操作的是分布在多台机器上的数据,而RDD相当于是一个代理,对RDD进行操作其实就是对分区进行操作,就是对每一台机器上的迭代器进行操作,因为迭代器引用着我们要操作的数据!


二、RDD的五大特性
RDD是由多个分区组成的集合

每个分区上会有一个函数作用在上面,实现分区的转换

RDD与RDD之间存在依赖关系,实现高容错性

如果RDD里面装的是(K-V)类型的,有分区器

如果从HDFS这种文件系统中创建RDD,会有最佳位置,是为了数据本地化

转发
作者:一个萝卜丶 
来源:CSDN 
原文:https://blog.csdn.net/qq_41050480/article/details/79856266 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值