任何分布式服务都会有两种角色,一个是Master另一个是Slaver,前者是领导专门负责指挥和调度,后者是员工专门负责干活的;Driver相当于Master,Executor相当于Slaver,前者负责任务的分配和管理,后者负责对数据进行计算。
Driver核心职责:主要就是领导的职责;第一个负责创建SparkContext对象或者SparkSession对象,然后SparkContext又负责创建RDD,SparkSession主要负责创建DataSet或者DataFrame。第二个Driver还负责管理广播变量和累加器,广播变量负责将一个只读对象传递到所有的executor端提供数据计算的需求,而累加器则是用来收集executor端数据的累计行为。
Executor的职责:主要就是打工职责;第一个对RDD或者DataSet数据模型进行计算,所有的对数据计算全部在Executor端进行。第二个对计算后的最终的RDD或者DataSet进行持久化存储。