Spark的基本数据结构RDD介绍

RDD(弹性分布式数据集)是Spark的基础数据结构,不可变且支持并行计算。RDD通过逻辑分区进行组织,数据类型灵活,适用于迭代计算。RDD包含分区列表、计算函数等属性,并依赖其他RDD。RDD的创建包括并行化现有集合和加载外部文件。通过persist()和cache()实现持久化,提供多种存储级别。RDD的操作分为transformation和action,前者创建依赖关系,后者返回单个值或触发计算。常见的transformation有map、filter等,action有collect、count等。
摘要由CSDN通过智能技术生成

RDD的全称:弹性分布式数据集合,它是spark的基本数据结构,spark中的所有数据都是通过RDD的形式进行组织。

RDD是不可变的数据集合,不可变的意思是RDD中的每个分区数据是只读的。

RDD数据集是要做逻辑分区的(这里的分区类似hadoop中的逻辑切片split),每个分区可以单独在集群节点进行计算。

RDD数据集中的数据类型可以包含任何java类型、scala类型、python类型或者自定义的类型。

RDD擅长的领域:迭代式的数据处理,比如机器学习。

 

RDD自带5个属性详解——

            1.分区列表,Partition List。这里的分区概念类似hadoop中的split切片概念,即数据的逻辑切片

            2.针对每个split(切片)的计算函数,即同一个RDD的每个切片的数据使用相同的计算函数

            3.对其他rdd的依赖列表

            4.可选,如果是(

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值