Spark学习(三):spark 的任务提交方式

本文详细介绍了Spark在Standalone和Yarn模式下的任务提交方式,包括client和cluster模式,分析了各自的执行原理、流程及特点。讨论了Driver的功能,并概述了Spark的任务调度和资源调度流程,包括粗粒度和细粒度资源申请的优缺点。
摘要由CSDN通过智能技术生成

目录

1. Standalone模式两种提交任务方式

1.1 Standalone-client提交任务方式

1.2 Standalone-cluster提交任务方式

1.3 Driver的功能

2. yarn模式两种提交任务方式

2.1 yarn-client提交任务方式

2.2 Standalone-cluster提交任务方式

2.3 Application功能

3. 术语解释

4. Spark任务调度和资源调度

4.1 spark资源调度和任务调度流程

4.2图解Spark资源调度和任务调度的流程

4.3 粗粒度资源申请和细粒度资源申请


1. Standalone模式两种提交任务方式

1.1 Standalone-client提交任务方式

提交命令

...代表spark安装目录

./spark-submit  --master spark://hadoop101:7077  --class org.apache.saprk.examples.SparkPi  .../examlpes/jars/spark-examples_2.11-2.2.0.jar  100

./spark-submit  --master spark://hadoop101:7077  --depoly-mode  client  --class org.apache.saprk.examples.SparkPi  .../examlpes/jars/spark-examples_2.11-2.2.0.jar  100

执行原理图解

执行流程

  1. 在客户端提交Spark应用程序,会在客户端启动Driver。
  2. 客户端向Master申请资源,Master找到资源返回。
  3. Driver向worker节点发送task,监控task执行,回收结果。

总结

client方式提交任务,在客户端提交多个application,客户端会为每个application都启动一个Driver, Driver与集群Worker节点有大量通信,这样会造成客户端网卡流量激增。

在客户端可以看到task执行情况和计算结果。

client方式提交任务适用于程序测试,不适用于真实生产环境。

1.2 Standalone-cluster提交任务方式

提交命令

./spark-submit  --master spark://hadoop101:7077  --depoly-mode  cluster  --class org.apache.saprk.examples.SparkPi  .../examlpes/jars/spark-examples_2.11-2.2.0.jar  100

执行原理图解

 

执行流程

  1. 客户端提交application,客户端首先向Master申请启动Driver
  2. Master收到请求之后,随机在一台Worker节点上启动Driver
  3. Driver启动之后,向Master申请资源,Master返回资源。
  4. Driver发送task,监控task执行,回收结果。

总结

cluster方式提交任务,Driver在集群中的随机一台Worker节点上启动,分散了client方式的网卡流量激增问题。 cluster方式适用于真实生产环境,在客户端看不到task执行情况和执行结果,要去WEBUI中去查看。

1.3 Driver的功能

在standalone模式中Driver的功能

  1. 发送task
  2. 监控task执行,回收结果
  3. 申请资源      

2. yarn模式两种提交任务方式

2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值