![](https://img-blog.csdnimg.cn/20190918140053667.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark-Scheduler
主要介绍spark scheduler
吴用之人
这个作者很懒,什么都没留下…
展开
-
Spark-Scheduler:三、DAGScheduler实现过程
前言:通过前面部分内容,我们知道DAGScheduler会根基RDD的计算逻辑,将DAG划分为不同的Stage,每个Stage可以并发执行一组逻辑完全相同的Task,只是分布作用于不同数据集上面。现在从一个简单的RDD count为例,来看一下Spark的内部实现原理。1、SparkContext#runJobdef count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum其实SparkContext实现了很多..原创 2020-06-16 20:13:37 · 336 阅读 · 0 评论 -
Spark-Scheduler:二、Scheduler实现概述
任务调度模块涉及了三个类:1)org.apache.spark.scheduler.DAGScheduler2)org.apache.spark.scheduler.SchedulerBackend3)org.apache.spark.scheduler.TaskScheduler其中1,3在上篇的图示里面有,而org.apache.spark.scheduler.SchedulerBackend是一个trait,作用是:分配当前可用的资源 ——就是给Task分配计算资源(Execut.原创 2020-06-16 19:43:06 · 197 阅读 · 0 评论 -
Spark-Scheduler:一,概述
Spark Scheduler:DAGScheduler和TaskScheduler。构建的不同的RDD,因为代码逻辑组成了一个DAG。Spark提供了多种转换和动作,将复杂的拓扑隐藏掉,使用户简单的使用。任务调度逻辑视图由上图很容看出DAGScheduler是干嘛的。DAGScheduler根据依赖关系建立DAG,然后将DAG划分不同的Stage(阶段),然后每组由可以并发执行的一组Task构成。(这些Task逻辑完全相同只是作用的数据不同)由上图DAG在划分完DAG后,会将Stage里.原创 2020-06-16 17:38:39 · 436 阅读 · 0 评论