在YARN框架中执行一个MapReduce程序时,从提交到完成需要经历如下8个步骤。
①用户编写客户端应用程序, 向YARN提交应用程序,提交的内容包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
②YARN 中的ReourceManager负责接收和处理来自客户端的请求。接到客户端应用程序请求后,RsourceManager里面的调度器会为应用程序分配一个容器。同时, ResourceManager 的应用程序管理器会与该容器所在NodeManager 通信,为该应用程序年该容器中启动一个ApplicationMaster。
③ApplicationMaster 被创建后会首先向ResourceManager 注册,从而使得用户可以通过ResourceManager来直接查看应用程序的运行状态。接下来的步骤4~7是具体的应用程序执行步骤。
④ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源。
⑤ResourceManager 以“容器”的形式向提出申请的ApplicationMaster 分配资源,一旦ApplicationMaster申请到资源后,就会与该容器所在的NodeManager 进行通信,要求它启动任务。
⑥当ApplicationMaster要求容器启动任务时,它会为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)然后将任务启动命令写到一个脚本中, 最后通过在容器中运行该脚本来启动任务。
⑦各个任各通过某个RPC 协议向ApplicationMaster 汇报自己的状态和进度,让ApplicationMaster可以随时掌握各 个任务的运行状态,从而可以在任务失败时重新启动任务。
⑧应用程序运行完成后,ApplicationMaster向ResourceManager的应用程序管理器注销并关闭自己,若ApplicationMaster因故失败,ResourceManager中的应用程序管理器会监测到失败的情形,然后将其重新启动,直到所有的任务执行完毕。
摘自《大数据技术原理与应用》