【spark学习】1-DAG什么是“内存计算”

最新推荐文章于 2024-02-01 10:46:28 发布

半碗盐豆子

最新推荐文章于 2024-02-01 10:46:28 发布

阅读量284

点赞数

文章标签： spark 学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31886057/article/details/127955243

版权

本文深入探讨了Spark的内存计算，包括分布式数据缓存和Stage内的流水线式计算模式。DAG无环图由RDD及其依赖关系组成，Stage划分以Actions算子为起点，Shuffle操作为边界。内存计算通过减少磁盘I/O，提升数据处理效率，同一Stage内算子融合成一个函数，优化内存中数据转换速度，从而提高整体性能。

摘要由CSDN通过智能技术生成

一、一层含义：分布式数据缓存

Spark允许开发者将分布式数据集缓存到计算节点的内存中，从而进行高效的数据访问。只有需要频繁访问的数据集才有必要用cache，对于一次性数据集使用cache会适得其反。在Spark中，内存计算有两层含义：1、分布式数据缓存；2、Stage内的流水线式计算模式。

二、二层含义：Stage内的流水线式计算模式

1、什么是DAG？

DAG（Direct Acyclic Graph）无环图，图有两个基本元素：顶点和边，在Spark的DAG中，顶点是一个个RDD，边是RDD间通过dependencies属性构成的父子关系。从开发者的视角出发，DAG的构建是通过在分布式数据集上不停调用算子来完成的。

2、Stages的划分

从DAG转换的分布式任务在分布式环境中执行，需要经过4个阶段：

回溯DAG并划分Stage
在Stages中创建分布式任务
分布式任务的分发

最低0.47元/天解锁文章

半碗盐豆子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。