用通俗的语言解释下:Spark 中的 RDD 是什么

RDD(Resilient Distributed Dataset)是Spark中的核心概念,是不可变、分布式的数据集,基于内存计算以降低延迟。RDD通过变换算子和终结算子进行数据处理,形成有向无环图(DAG)进行任务调度。 Shuffle算子会打断流水线,Spark以Stage为单位进行调度,提高并发。理解RDD的本质有助于掌握Spark的计算模型。
摘要由CSDN通过智能技术生成

RDD,学名可伸缩的分布式数据集(Resilient Distributed Dataset)。初次听闻,感觉很高深莫测。待理解其本质,却发现异常简洁优雅。本文试图对其进行一个快速侧写,试图将这种大数据处理中化繁为简的美感呈现给你。

RDD 是什么

  1. RDD 本质上是对数据集的某种抽象

RDD 将数据集合进行三层组织:Dataset(数据集)- Partition(分片)- Record(单条记录)。三是一个很合适的层数,每层都有其着力点,多了显冗余,少了力不够。

举个生活中例子,高中某个班级(Dataset),我们把他们按列分成四个小组(Partition),每个小组有大概十来个同学(Record)。任何一群人来了,我们都可以以这种形式将其进行组织。同样,任何一个数据集,我们也可以按类似的三个层级进行划分。

  1. RDD 是基于内存分布式的数据集。

单机资源总是有限的,RDD 生来就是为多机而设计的。将数据集划分为多个分片(Partition),就是为了能让一个数据集分散到不同机器上,从而利用多个机器的存储和计算资源,对数据进行并行处理。此外,分片还可以隔离故障阈,当某个机器故障后,只需要恢复该机器上对应分片即可,其他机器的分片不受影响。

相比 HDFS 或

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值