Spark中,每个Application对应一个SparkContext。对于SparkContext之间的调度关系,取决于Spark的运行模式。对Standalone模式而言,Spark Master节点先计算集群内的计算资源能否满足等待队列中的应用对内存和CPU资源的需求,如果可以,则Master创建Spark Driver,启动应用的执行。宏观上来讲,这种对应用的调度类似于FIFO策略。在Mesos和Yarn模式下,底层的资源调度系统的调度策略都是由Mesos和Yarn决定的。具体分类描述如下:
(1)Standalone模式: 默认以用户提交Applicaiton的顺序来调度,即FIFO策略。每个应用执行时独占所有资源。如果有多个用户要共享集群资源,则可以使用参数spark.cores.max
来配置应用在集群中可以使用的最大CPU核的数量。如果不配置,则采用默认参数spark.deploy.defaultCore
的值来确定。
(2)Mesos模式:如果在Mesos上运行Spark,用户想要静态配置资源的话,可以设置spark.mesos.coarse
为true,这样Mesos变为粗粒度调度模式。然后可以设置spark.cores.max
指定集群中可以使用的最大核数,与上面Standalone模式类似。同时,在Mesos模式下,用户还可以设置参数spark.executor.memory
来配置每个executor的内存使用量。如果想使Mesos在细粒度模式下运行,可以通过mesos://<url-info>
设置动态共享cpu core的执行模式。在这种模式下,应用不执行时的空闲CPU资源得以被其他用户使用,提升了CPU使用率。另外,粗粒度调度模式下,cpu和内存将被长期占有直至任务退出,有可能造成资源的浪费,但也使得减少了资源调度的时间。而细粒度下,根据任务的实际需要进行调度资源,但是每次需要资源的时候都动态向系统申请资源,如果任务非常多而且运行的时间也非常短,就会使得资源调度的开销非常的大。