任务调度以及作业执行流程是Spark的核心,本文不进行源码级别的探究,只是概述Spark的核心组件、它们的作用以及它们如何协作以完成计算作业。
Spark核心组件
- SparkContext
- Job
- RDD
- DAGScheduler
- DAG
- TaskScheduler
- Stage
- TaskSet
- Task
- BlockManager
- BlockTracker
- ShuffleTracker
Spark集群架构概览
在上面这幅图片中,用户将任务提交给Driver,Driver将任务分发到所有的Worker节点(Driver最好跟Work节点在同一个局域网内,以使得任务的分发和结果回送更快)。Worker节点根据Driver提交过来的任务,算出位于本地的那部分数据,然后对它进行计算(这