在最开始,我们一键执行start-all.sh即启动了spark集群,殊不知,最终执行的是Master和Worker的类对象。
Master启动流程
- 首先执行Master的伴生对象,执行main方法,初始化并解析一些参数,然后调用startSystemAndActor方法通过AkkaUtils工具类创建ActorSystem,再创建actor,实例化Master对象。
- Master对象执行完构造器之后,会执行prestart方法,方法内启动一个定时调度器,定时执行CheckForWorkerTimeOut检查超时的Worker。
- CheckForWorkerTimeOut方法里面只执行一个方法timeOutDeadWorkers(),该方法里面会过滤出超时的Worker,然后判断Worker的状态,如果状态不为dead,则移除相关的信息,HashMap,任务,持久化等等,但HashSet保留,并设置dead状态;如果为dead,判断是否超过16个心跳时间,如果超过就直接从HashSe中彻底删除。
Worker启动流程
- 首先执行Worker的伴生对象,执行main方法,初始化并解析一些参数,然后调用startSystemAndActor方法通过AkkaUtils工具类创建ActorSystem,再创建actor,实例化Worker对象。
- Worker对象执行完构造器之后,会执行prestart方法,方法内会拿到Master URL,调用registerWithMaster方法向Master注册。
- registerWithMaster方法中调用了tryRegisterAllMasters方法,方法内通过循环向master建立连接,并注册。
- 在Master类中的receiveWithLogging方法中接收到注册消息后,会判断该worker的状态,如果为standby,则不回应;如果已经注册过,会向worker发送注册失败的消息;否则封装注册数据,返回注册成功消息,并持久化worker。
- 如果注册成功,在Worker类中的receiveWithLogging方法中会更新master信息,并调用定时器定期向master发送心跳。
详细步骤详见:https://blog.csdn.net/weixin_43637653/article/details/84099110