图解Spark任务提交执行流程总结

最新推荐文章于 2023-07-01 09:08:02 发布

伟红-long-term

最新推荐文章于 2023-07-01 09:08:02 发布

阅读量883

点赞数 2

分类专栏： Spark 大数据 Linux系统文章标签： Spark 任务提交执行流程

本文链接：https://blog.csdn.net/qq_41587198/article/details/100159205

版权

本文详细介绍了Spark在Standalone和Yarn两种环境下的任务提交执行流程，包括Client模式和Cluster模式。在Standalone模式中，Driver可以运行在客户端或集群中，而在Yarn模式下，Driver同样可以在客户端或集群内运行。对于生产环境，推荐使用Cluster模式以避免客户端网卡流量激增。文章还总结了Spark运行的基本概念和流程，涉及DAGScheduler、TaskScheduler等关键组件的角色和任务。

摘要由CSDN通过智能技术生成

一、Spark基于Standalone任务提交

根据Driver在集群中的位置分为两种模式：

一种是Standalone-Clien模式，另一种是Standalone-Cluster模式

(1）Standalone-Clien模式

Standalone-Clien模式，Driver运行在本地的客户端上

提交命令

./spark-submit --master spark://node1:7077 --class 包名.类名 jar包参数
./spark-submit --master spark://node1:7077 –deploy-mode client --class 包名.类名 jar包参数

在这里插入图片描述

执行流程

spark集群启动后，Worker向Master注册信息
在客户端提交任务后，会在客户端启动Driver
Driver向Master申请资源
Master找到满足资源的Worker节点启动Executor
Executor启动之后，向Driver反向注册
Driver发送task到Executor，执行情况和结果返回给Driver端

总结

这种模式适用于程序测试，不适用于生产环境。当在客户端提交多个Spark application时，每个application都会有自己独立的Driver，Driver与集群中的Worker有大量的通信，造成客户端的网卡流量激增问题。
Standalone-Clien模式在客户端可以看到task的执行和结果。

(2）Standalone-Cluster模式

提交命令

./spark-submit --master spark://node1:7077 --deploy-mode cluster --class 包名.类名 jar包参数

最低0.47元/天解锁文章

伟红-long-term

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
图解Spark任务提交执行流程总结

一、Spark基于Standalone任务提交根据Driver在集群中的位置分为两种模式：一种是Standalone-Clien模式，另一种是Standalone-Cluster模式(1）Standalone-Clien模式Standalone-Clien模式，Driver运行在本地的客户端上提交命令./spark-submit --master spark://node1:70...
复制链接

扫一扫