RDD的读取进内存的过程和输出数据图解

最新推荐文章于 2022-05-18 14:33:20 发布

大师兄啊

最新推荐文章于 2022-05-18 14:33:20 发布

阅读量3.6w

点赞数

分类专栏： spark 文章标签： RDD的读取进内存和输出数据图解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25843323/article/details/80078566

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

假如我们电脑的内存是512G的，我们要从数据源（hdfs）读取的数据大小是1T

所以我们不能将所有的数据都一次读取进内存，在hfds中的数据是以block块的形式存放着的，所以1T的数据分成了很多个block的块

HFDS （1T）

在内存会加载多个block块进来进行相应的计算然后生成一个rdd1的一部分（512G）

这一部分rdd1之后还会继续往下进行计算，生成RDD2，在生成rdd2之前我们还进行了一个persist，这里会将数据进行持久化（保存到内存或者硬盘）

到RDD2的时候这里一部分数据就已经计算出结果来了，内存里边还保留着一部分rdd1的数据

我们1T的数据还没有读完，然后接着读剩下的数据，把剩下的数据继续加载计算然后生成rdd1的一部分，然后进行持久化，这个时候试图去存，看看是否还有内存，然后装不下就不装了。然后继续执行生成新的rdd2的另外一批的数据，最后RDD2有一个count直接出结果了。

缓存到内存的数据有什么用呢？

比如说RDD3不是直接从rdd2来的，而是在rdd1过来的，这个时候呢，rdd3.count提交一个job，然后回去找rdd1，这个时候发现rdd1之前做过缓存，所以先去读rdd1缓存的数据，没有缓存的我们重新再去读hdfs的一部分生成rdd1（实际上也可以在内存和磁盘里面存）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。