rdd
弹性分布式数据集
是一个不可变、可分区、可并行计算的集合
可以缓存在内存中并进行重用,提高效率
rdd之间可以进行转换,可以储存任意数据类型
五大特征
RDD是一个由多个partition组成的的集合;
RDD的每个partition上面都会有函数;
RDD会记录它的依赖;
如果是KV类型的rdd,则可以纯涤一个自定义的partitioner进行重分区
最优的位置去计算,也就是数据的本地性。
rdd
最新推荐文章于 2023-01-30 14:26:44 发布
rdd
弹性分布式数据集
是一个不可变、可分区、可并行计算的集合
可以缓存在内存中并进行重用,提高效率
rdd之间可以进行转换,可以储存任意数据类型
五大特征
RDD是一个由多个partition组成的的集合;
RDD的每个partition上面都会有函数;
RDD会记录它的依赖;
如果是KV类型的rdd,则可以纯涤一个自定义的partitioner进行重分区
最优的位置去计算,也就是数据的本地性。