Spark学习笔记(厦大mooc)
基本概念
- RDD:分布式内存的抽象概念,提供了一种高度受限的共享内存模型。
- DAG:有向无环图,反映RDD之间的依赖关系。
- Executor:是运行在工作节点上的一个进程,负责运行task,整个应用程序是以作业的形式运行,每一个作业一般分为很多个task。Task就在executor中去运行。
- Task:运行在Executor上工作单元。
- Job,一个应用程序application都是包含多个job的,每个job包含多个RDD以及作用于RDD上的各种操作。
- Stage:是job的基本调度单位,一个job会被分为多个相关的task组,每一组task都被称为一个stage,有时候也称之为一个taskSet,每个taskset就代表一组相关联的,相互之间没有shuffle依赖关系的任务组成的任务集。
说明:Spark应用程序里面的作业,就是一整套RDD之间的相互依赖关系和相关的操作构成的。
spark运行基本流程
1、首先,客户端提交一个应用程序,就必须为这个应用程序构建其基本的运行环境,该基本环境是SparkContext