spark 设置主类_Spark资源调度、任务调度源码及流程图

本文详细介绍了Spark提交参数,包括Master、deploy-mode、Class等,分析了资源调度源码,揭示Executor如何在集群中分散启动,以及任务调度从Action算子开始的流程,并探讨了二次排序和分组取topN的方法。
摘要由CSDN通过智能技术生成

1. Spark-Submit提交参数

Options:

Master:

MASTER_URL, 可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local

deploy-mode:

DEPLOY_MODE, Driver程序运行的地方,client或者cluster,默认是client。

Class:

CLASS_NAME, 主类名称,含包名

Jars:

逗号分隔的本地JARS, Driver和executor依赖的第三方jar包

Files:

用逗号隔开的文件列表,会放置在每个executor工作目录中

Conf:

spark的配置属性

driver-memory:

Driver程序使用内存大小(例如:1000M,5G),默认1024M

executor-memory:

每个executor内存大小(如:1000M,2G),默认1G

Spark standalone with cluster deploy mode only:

driver-cores:

Driver程序的使用core个数(默认为1),仅限于Spark standalone模式

Spark standalone or Mesos with cluster deploy mode only:

Supervise:

失败后是否重启Driver,仅限于Spark alone或者Mesos模式

Spark standalone and Mesos only:

total-executor-cores:

executor使用的总核数,仅限于SparkStandalone、Spark on Mesos模式

Spark standalone and YARN only:

executor-cores:

每个executor使用的core数,Spark on Yarn默认为1,standalone默认为worker上所有可用的core。

YARN-only:

driver-cores:

driver使用的core,仅在cluster模式下,默认为1。

queue :

QUEUE_NAME 指定资源队列的名称,默认:default

num-executors:

一共启动的executor数量,默认是2个。


2. 资源调度源码分析

资源请求简单图:

c2709fbdca26fcbe7baf1f2dab2d1659.png

资源调度Master路径:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值