SparkContext是Spark应用的入口并负责和整个集群的交互,创建RDD,累积量(accumulators variables)和广播量(broadcast variables)等, 理解spark的任务调度基本流程,就需要从SparkContext开始。下图是官网Spark的架构图:
DriverProgram即用户提交的程序定义并创建了SparkContext的实例,SparkContext会根据RDD对象构建DAG图,然后将作业(job)提交(runJob)给DAGScheduler。