Spark-RDD懒加载

最新推荐文章于 2024-05-14 05:07:37 发布

Recall-MK

最新推荐文章于 2024-05-14 05:07:37 发布

阅读量4.8k

点赞数 3

分类专栏： # spark 文章标签： spark rdd 大数据云计算懒加载

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33982605/article/details/79831585

版权

spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Transformation 操作是延迟计算的，也就是说从一个 RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Acion 操作的时候才会真正触发运算。

Transformation返回的数据类型是一个RDD

Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统

Action返回的类型是一个其他的数据类型

详细解说:

Transformation操作和Action操作的区别在于Spark计算RDD的方式不同。

只有当代码中用Action操作时，spark才会进行计算否则是不会进行计算的，这种策略刚开始看起来可能会显得很奇怪，不过在大数据领域中是很有道理的。比如我读取一个文件中的数据然后进行过滤，然后Action算子first取得第一行。

如果spark在我们运行sc.textFile的时候就把文件中所有的读取并存储进来的话会消耗很多的存储空间，更不要说我们紧接着就要就行过滤操作了。

相反，一旦Spark了解了，所有的Transformation算子以后(spark会在内部记录下所要求执行操作的相关信息)在Action算子first中，Spark只需要扫描文件直到找到第一个匹配的行为止，而并不需要读取整个文件

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Spark-RDD懒加载

Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Acion 操作的时候才会真正触发运算。Transformation返回的数据类型是一个RDDAction 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统Action返回的类型是一个其他的数据类型详细解说: Transformation操...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。