Spark的架构原理

一、相关名词解释


       Driver:Driver是Spark集群的节点之一,我们编写的Spark程序就在Driver上,由Driver进程执行。

       Master:Master是个进程,主要负责资源的调度和分配,还有集群的监控,等等职责。

       Worker:Worker是个进程,主要负责两个方面,一个是用自己的内存存储RDD的某个或某些partition;另一个,是启动其他进程和线程,对RDD上的partition进行版型的处理和计算。

       Executor和Task:负责执行,对RDD的partition进行并行的计算。也就是执行我们队RDD的定义,比如:map、flatMap、reduce等算子操作。


二、执行流程


        (1)Driver进程启动之后,会做一些初始化的操作,在这个过程中,就会发送请求到Master上,进行Spark应用程序的注册。
        (2)Master在接收到了Spark应用程序的注册申请之后,会发送请求给Worker,进行资源的调度和分配。
        (3)Worker接收到Master的请求之后,会为Spark应用启动Executor。
        (4)Executor启动之后,会向Driver进行反注册。这样,Driver就知道,哪些Executor是为它进行服务的了。
        (5)Driver注册了一些Executor之后,就可以开始正式执行我们的Spark应用程序了。首先第一步就是,创建初始的RDD,读取数据源。HDFS文件内容读取到多个worker节点上,形成内存中的分布式数据集,也就是初始RDD。
        (6)Driver会根据我们对RDD定义的操作,提交一大堆task去Executor上。
        (7)Executor接收到task之后,会启动多个线程来执行task。
        (8)task就会对RDD的partition数据执行指定的算子操作,形成新的RDD的partition。
  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

象在舞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值