spark的数据存储

最新推荐文章于 2024-01-04 17:15:32 发布

代码与思路齐飞

最新推荐文章于 2024-01-04 17:15:32 发布

阅读量2.7k

点赞数 1

分类专栏： Spark 文章标签： spark 大数据 RDD 存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dsl200970/article/details/70148209

版权

Spark数据存储基于RDD，一个逻辑上大的数组，分区分布在集群各节点。RDD通过transformation和action算子操作，依赖关系用于容错。物理上，RDD是元数据结构，Block存储在内存或磁盘。cache()实现数据持久化，优化重用。

摘要由CSDN通过智能技术生成

Spark数据存储的核心是弹性分布式数据集(RDD)。RDD可以被抽象地理解为一个大的数组，这个数组中的每个元素是RDD逻辑上的一个分区(partition)，每个分区分布在集群上的不同节点上。

在spark的执行过程中，RDD经过transformation算子之后，最后由action算子触发操作。逻辑上每经历一次转换，就会将RDD转换为一个新的RDD，新的RDD和旧的RDD之间通过lineage产生依赖关系，这个关系在容错中有很重要的作用，而依赖也分为宽依赖和窄依赖。转换算子的输入和输出都是RDD，RDD会被划分成很多的分区分布到集群的多个节点中。分区是个逻辑概念，变换前后的新旧分区在物理上可能是同一块内存存储。这是很重要的优化，以防止函数式数据不变性(https://www.ibm.com/developerworks/cn/导致的内存需求无限扩张

最低0.47元/天解锁文章

代码与思路齐飞

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。