RDD基本特性

RDD基本特性

1、什么叫RDD?

2、RDD有怎么样的特性?

1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。
2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)
3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时也可以通过应用程序中的集合来创建。
4、RDD最重要的特性就是,提供了容错性,可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition,因为节点故障,导致数据丢了,那么RDD会自动通过自己的数据来源重新计算该partition。这一切对使用者是透明的。
5、RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘。(弹性)

下面用图表示:


一个RDD,在逻辑上,抽象地代表了一个HDFS文件。


但是,它实际上是被分区得。分为多个分区。多个分区散落在Spark集群中,不同的节点上。


比如说,RDD有90万数据。分为9个partition,9个分区。

现在,节点9出了些故障,导致partition9的数据丢失了。那么此时Spark会脆弱到直接报错,直接挂掉吗?不可能!!


RDD是有很强的容错性的,当它发现自己的数据丢失了以后,会自动从自己来源的数据进行重计算,重新获取自己这份数据,这一切对用户,都是完全透明的。

RDD的每个partition,在spark节点上存储时,默认都是放在内存中的。但是如果说内存放不下这么多数据时,比如每个节点最多放5万数据,结果你每个partition是10万数据。那么就会把partition中的部分数据写入磁盘上,进行保存。


而上述这一切,对于用户来说,都是完全透明的。也就是说,你不用去管RDD的数据存储在哪里,内存,还是磁盘。只要关注,你针对RDD来进行计算,和处理,等等操作即可。


所以说,RDD的这种自动进行内存和磁盘之间权衡和切换的机制,就是RDD的弹性的特点所在。


  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark RDD(Resilient Distributed Datasets)是Spark计算框架的核心抽象概念之一。下面是RDD的一些特性: 1. 弹性:RDD是可恢复的,它可以在节点故障时自动进行恢复。如果某个分区的数据丢失了,Spark可以通过数据容错机制重新计算丢失的数据。 2. 分布式:RDD可以在整个集群上分布,并且可以在不同节点上并行计算。这使得Spark可以利用集群中的多个计算资源来加快计算速度。 3. 不可变性:RDD是不可变的,即它们的值不能被直接修改。每次对RDD的操作都会生成一个新的RDD,而原始RDD保持不变。这种不可变性有助于实现容错和并行计算。 4. 惰性计算:RDD上的转换操作是惰性执行的,即它们不会立即执行,而是在遇到一个动作操作(如collect、count)时触发执行。这样可以优化计算过程,减少不必要的中间结果生成。 5. 可持久化:RDD可以将数据持久化在内存中,以便在后续操作中重用。通过使用缓存机制,Spark可以避免重复计算相同的RDD,从而提高计算效率。 6. 分区:RDD将数据划分为一系列的分区,每个分区都存储着数据的一个子集。分区是Spark并行计算的基本单元,可以在不同节点上进行并行处理。 7. 过程间依赖:RDD之间的转换操作可以形成有向无环图(DAG),其中每个节点都是RDD的转换操作,边表示RDD之间的依赖关系。Spark使用DAG来优化计算过程,并实现容错和恢复机制。 这些特性使得RDD成为Spark的核心抽象,为开发者提供了一个强大而灵活的数据处理模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值