Spark 的执行过程

最新推荐文章于 2024-07-02 09:36:29 发布

stone-zhu

最新推荐文章于 2024-07-02 09:36:29 发布

阅读量606

点赞数 1

分类专栏： BigData

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zzz_Zzz_Z/article/details/90597447

版权

BigData 专栏收录该内容

37 篇文章 0 订阅

订阅专栏

Spark 支持 Standalone、Yarn、Mesos、Kubernetes 等多种部署方案，几种部署方案的原理也都一样，只是不同组件角色命名不同，但核心功能和运行流程差不多。具体部署方式可以看官方文档：Spark Deploy

Spark 执行过程

上面这张图是官网上的 Spark 的运行流程，具体来看：

1，Spark 应用程序启动在自己的 JVM 进程中，即 Driver 进程。启动后 SparkContext 初始化执行配置和输入数据。SparkContext 启动 DAGScheduler 构造执行的 DAG 图，切分成最小的执行单位：task；

2，Driver 向 Cluster Manager 请求计算资源，用于 DAG 的分布式计算。Cluster Manager 收到请求后，将 Driver 的主机地址等信息通知给集群的所有计算节点 Worker。

3，Worker 收到信息后，根据 Driver 的主机地址，跟 Driver 通信并注册，然后根据自己的空闲资源向 Driver 通报自己可以领用的任务数。Driver 根据 DAG 图开始向注册的 Worker 分配任务。

4，Worker 收到任务后，启动 Executor 进程开始执行任务。Executor 先检查自己是否有 Driver 的执行代码，如果没有，从 Driver 下载执行代码，通过 Java 反射加载后开始执行。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。