图解Spark任务提交执行流程总结

本文详细介绍了Spark在Standalone和Yarn两种环境下的任务提交执行流程,包括Client模式和Cluster模式。在Standalone模式中,Driver可以运行在客户端或集群中,而在Yarn模式下,Driver同样可以在客户端或集群内运行。对于生产环境,推荐使用Cluster模式以避免客户端网卡流量激增。文章还总结了Spark运行的基本概念和流程,涉及DAGScheduler、TaskScheduler等关键组件的角色和任务。
摘要由CSDN通过智能技术生成

一、Spark基于Standalone任务提交

根据Driver在集群中的位置分为两种模式:

  • 一种是Standalone-Clien模式,另一种是Standalone-Cluster模式

(1)Standalone-Clien模式

Standalone-Clien模式,Driver运行在本地的客户端上

提交命令
  • ./spark-submit --master spark://node1:7077 --class 包名.类名 jar包 参数
  • ./spark-submit --master spark://node1:7077 –deploy-mode client --class 包名.类名 jar包 参数

在这里插入图片描述

执行流程
  1. spark集群启动后,Worker向Master注册信息
  2. 在客户端提交任务后,会在客户端启动Driver
  3. Driver向Master申请资源
  4. Master找到满足资源的Worker节点启动Executor
  5. Executor启动之后,向Driver反向注册
  6. Driver发送task到Executor,执行情况和结果返回给Driver端
总结

这种模式适用于程序测试,不适用于生产环境。当在客户端提交多个Spark application时,每个application都会有自己独立的Driver,Driver与集群中的Worker有大量的通信,造成客户端的网卡流量激增问题。
Standalone-Clien模式在客户端可以看到task的执行和结果。

(2)Standalone-Cluster模式

提交命令
  • ./spark-submit --master spark://node1:7077 --deploy-mode cluster --class 包名.类名 jar包 参数

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值