yarn 的架构图
YARN总体架构上是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。
当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManager申请资源,并要求NodeManger启动可以占用一定资源的任务。由于不同的ApplicationMaster被分布到不同的节点上,因此它们之间不会相互影响。
YARN的工作流程
根据上图所示,Yarn的工作流程主要如下:
1、Client程序向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster命令、用户程序等 。
2、resourceManager为该应用程序分配第一个container,并与对应的nodeManager通信,要求它在这个container中启动应用程序的ApplicationMaster 。
3、ApplicationMaster需要首先向ResourceManager注册,这样用户可以直接通过ResourceManager查看应用程序的运行状态。之后,ApplicationMaster将为各个任务申请资源,并监控它的运行状态,(直到运行结束)。
4、ApplicationMaster采用轮询的方式通过RPC协议向resourceManager申请和获取资源 。
5、当申请到资源后,ApplicationMaster便与对应的Nodemanager通信,要求它启动任务。
6、NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务 。
7、各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以便让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。
8、应用程序运行完成后,ApplicationMaster向resourceManager注销并关闭自己。