-
分区
-
可以将计算的海量数据分成多份,需要分成多少可分区可以通过方法指定
-
每个分区都可以对应一个task线程执行计算
-
-
只读
-
rdd中的数据不能直接修改,需要通过方法计算后得到一个新的rdd
-
rdd本身存储的数只能读取
-
-
依赖
-
rdd之间是有依赖关系的
-
新的rdd是通过旧的rdd计算得到
-
-
缓存
-
可以将计算的中结果缓存起来,如果后续计算错误时,可以从缓存位置重新计算
-
将数据存储在内存或本地磁盘
-
作用是容错
-
-
checkpoint
-
作用和缓存一样
-
checkpoint可以将数据存储在分布式存储系统中,比如hdfs
-
Spark之RDD的五大特点
最新推荐文章于 2023-06-15 10:54:33 发布
文章讲述了在处理大规模数据时,如何通过分区将数据分配给多个Task并行计算,以及RDD(ResilientDistributedDatasets)的特性,如不可变性、依赖关系和缓存策略。RDD的计算基于旧RDD生成新RDD,并可通过缓存提高效率。同时,介绍了checkpoint机制用于更可靠的容错,将数据存储在如HDFS的分布式系统中。
摘要由CSDN通过智能技术生成