1、架构图
2、概念介绍
基本概念:
Application:用户编写的 Spark 应用程序。
Driver:Spark 中的 Driver 即运行上述 Application 的 main 函数并创建 SparkContext,创建 SparkContext 的目的是为了准备 Spark 应用程序的运行环境,在 Spark 中有 SparkContext 负责与 ClusterManager 通信,进行资源申请、任务的分配和监控等,当 Executor 部分运行完毕后,Driver 同时负责将 SparkContext 关闭。
Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行Task。
RDD:弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
DAG:有向无环图,反映 RDD 之间的依赖关系。
Task:运行在 Executor 上的工作单元。
Job:一个 Job 包含多个 RDD 及作用于相应 RDD 上的各种操作。
Stage:是 Job 的基本调度单位,一个 Job 会分为多组 Task,每组 Task 被称为 Stageÿ