spark的数据存储

Spark数据存储基于RDD,一个逻辑上大的数组,分区分布在集群各节点。RDD通过transformation和action算子操作,依赖关系用于容错。物理上,RDD是元数据结构,Block存储在内存或磁盘。cache()实现数据持久化,优化重用。
摘要由CSDN通过智能技术生成
Spark数据存储的核心是弹性分布式数据集(RDD)。RDD可以被抽象地理解为一个大的数组,这个数组中的每个元素是RDD逻辑上的一个分区(partition),每个分区分布在集群上的不同节点上。

在spark的执行过程中,RDD经过transformation算子之后,最后由action算子触发操作。逻辑上每经历一次转换,就会将RDD转换为一个新的RDD,新的RDD和旧的RDD之间通过lineage产生依赖关系,这个关系在容错中有很重要的作用,而依赖也分为宽依赖和窄依赖。转换算子的输入和输出都是RDD,RDD会被划分成很多的分区分布到集群的多个节点中。分区是个逻辑概念,变换前后的新旧分区在物理上可能是同一块内存存储。这是很重要的优化,以防止函数式数据不变性(https://www.ibm.com/developerworks/cn/导致的内存需求无限扩张
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值