如何理解Spark中Driver和Executor?

        任何分布式服务都会有两种角色,一个是Master另一个是Slaver,前者是领导专门负责指挥和调度,后者是员工专门负责干活的;Driver相当于Master,Executor相当于Slaver,前者负责任务的分配和管理,后者负责对数据进行计算。

        Driver核心职责:主要就是领导的职责;第一个负责创建SparkContext对象或者SparkSession对象,然后SparkContext又负责创建RDD,SparkSession主要负责创建DataSet或者DataFrame。第二个Driver还负责管理广播变量和累加器,广播变量负责将一个只读对象传递到所有的executor端提供数据计算的需求,而累加器则是用来收集executor端数据的累计行为。

        Executor的职责:主要就是打工职责;第一个对RDD或者DataSet数据模型进行计算,所有的对数据计算全部在Executor端进行。第二个对计算后的最终的RDD或者DataSet进行持久化存储。

  • 10
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值