NodeManager代码分析之NodeManager启动过程

http://blog.csdn.net/wuwenxiang91322/article/details/40384471



1、NodeManager概述

NodeManager(NM)是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点,包括与ResourceManger保持通信,监督Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务。

NodeManager整体架构:


2、NodeManager分析

接下来将按照启动NodeManager时代码执行的顺序为主线进行代码分析。

2.1 main函数
  • 打印NodeManager启动和关闭日志信息;
  • 创建NodeManager对象;
  • 加载配置文件初始化配置项;
  • 调用initAndStartNodeManager函数。

主要代码:

[java]  view plain  copy
  1. public static void main(String[] args) {  
  2.     Thread.setDefaultUncaughtExceptionHandler(new YarnUncaughtExceptionHandler());  
  3.    //打印Nodemangager启动和关闭时的日志信息  
  4.     StringUtils.startupShutdownMessage(NodeManager.class, args, LOG);  
  5.     //创建NodeManager对象  
  6.     NodeManager nodeManager = new NodeManager();  
  7.     //加载配置文件初始化  
  8.     Configuration conf = new YarnConfiguration();  
  9.     //初始化并启动NodeManager  
  10.     nodeManager.initAndStartNodeManager(conf, false);  
  11.   }  

2.2 initAndStartNodeManager函数
  • 调用init()函数,进行初始化(init方法调用被重写的serviceInit方法进行初始化)
  • 启动各项服务(start方法内部调用被重写的servicestart方法进行启动各项服务)

[java]  view plain  copy
  1. private void initAndStartNodeManager(Configuration conf, boolean hasToReboot) {  
  2.     try {  
  3.   
  4.       // Remove the old hook if we are rebooting.  
  5.       if (hasToReboot && null != nodeManagerShutdownHook) {  
  6.         ShutdownHookManager.get().removeShutdownHook(nodeManagerShutdownHook);  
  7.       }  
  8.       //增加nodeManagerShutdownHook为了在NodeManager关闭或重启时关闭compositeService  
  9.       nodeManagerShutdownHook = new CompositeServiceShutdownHook(this);  
  10.       ShutdownHookManager.get().addShutdownHook(nodeManagerShutdownHook,  
  11.                                                 SHUTDOWN_HOOK_PRIORITY);  
  12.       //调用init()函数,进行初始化(init方法调用被重写的serviceInit方法进行初始化)  
  13.       this.init(conf);  
  14.       //启动各项服务(start方法内部调用被重写的servicestart方法进行启动各项服务)  
  15.       this.start();  
  16.     } catch (Throwable t) {  
  17.       LOG.fatal("Error starting NodeManager", t);  
  18.       System.exit(-1);  
  19.     }  
  20.   }  

2.3init函数

  (1)init方法是从Service接口,在AbstractService抽象类中得到实现。在AbstractService类中的init方法调用protected 类型的serviceInit。在其子类NodeMananger中重写了serviceInit方法。

  AbstractService抽象类中init方法实现:

[java]  view plain  copy
  1. @Override  
  2.   public void init(Configuration conf) {  
  3.     if (conf == null) {  
  4.       throw new ServiceStateException("Cannot initialize service "  
  5.                                       + getName() + ": null configuration");  
  6.     }  
  7.     if (isInState(STATE.INITED)) {  
  8.       return;  
  9.     }  
  10.     synchronized (stateChangeLock) {  
  11.       if (enterState(STATE.INITED) != STATE.INITED) {  
  12.         setConfig(conf);  
  13.         try {  
  14.           serviceInit(config);  
  15.           if (isInState(STATE.INITED)) {  
  16.             //if the service ended up here during init,  
  17.             //notify the listeners  
  18.             notifyListeners();  
  19.           }  
  20.         } catch (Exception e) {  
  21.           noteFailure(e);  
  22.           ServiceOperations.stopQuietly(LOG, this);  
  23.           throw ServiceStateException.convert(e);  
  24.         }  
  25.       }  
  26.     }  
  27.   }   

(2)NodeManager类中serviceInit方法中是添加一些服务。具体如下:

  • 进行基本的配置操作,例如从配置文件读入参数等
  • 创建并添加DeletionService、NodeHealthCheckerService到父类的一个ArrayList<Service>对象serviceList中
  • 调用createNodeStatusUpdater()函数创建NodeStatusUpdater对象,再调用NodeManager的父类方法register将这个对象注册添加父类的ArrayList<Service>对象listeners中.
  • 调用createContainerManager()、createWebServer()函数和createNodeResourceMonitor函数创建ContainerManagerImpl对象、Service对象和NodeResourceMonitor对象,并将其添加到serviceList
  • 将ContainerManagerImpl注册到之前创建好的异步事件调度器AsyncDispatcher中,然后将将AsyncDispatcher调度器添加到服务队列serviceList中
  • 最后添加NodeStatusUpdater对象到serviceList中,最后添加这个对象的原因是要在心跳操作启动必须在所有其他服务之后。
  • 调用父类的init()函数,进行其他的配置初始化。

    主要代码:

[java]  view plain  copy
  1. @Override  
  2.   protected void serviceInit(Configuration conf) throws Exception {  
  3.   
  4.     conf.setBoolean(Dispatcher.DISPATCHER_EXIT_ON_ERROR_KEY, true);  
  5.   
  6.     NMContainerTokenSecretManager containerTokenSecretManager =  
  7.         new NMContainerTokenSecretManager(conf);  
  8.   
  9.     NMTokenSecretManagerInNM nmTokenSecretManager =  
  10.         new NMTokenSecretManagerInNM();  
  11.       
  12.     this.aclsManager = new ApplicationACLsManager(conf);  
  13.     //始化ContainerExecutor,ContainerExecutor封装了nodeManager对Container操作的各种方法,   
  14.     //包括启动container, 查询指定id的container是否活着,等操作. 根据配置yarn.nodemanager.container-executor.class  
  15.     //决定ContainerExecutor的实例, 默认为DefaultContainerExecutor.  
  16.     ContainerExecutor exec = ReflectionUtils.newInstance(  
  17.         conf.getClass(YarnConfiguration.NM_CONTAINER_EXECUTOR,  
  18.           DefaultContainerExecutor.class, ContainerExecutor.class), conf);  
  19.     try {  
  20.       exec.init();  
  21.     } catch (IOException e) {  
  22.       throw new YarnRuntimeException("Failed to initialize container executor", e);  
  23.     }      
  24.     DeletionService del = createDeletionService(exec);  
  25.     addService(del);  
  26.       
  27.     // NodeManager level dispatcher 异步分发器  
  28.     this.dispatcher = new AsyncDispatcher();  
  29.     //可以通过此服务查询node是否健康, 当前node的健康状态包括nodeHealthScriptRunner.isHealthy和dirsHandler.areDisksHealthy  
  30.     nodeHealthChecker = new NodeHealthCheckerService();  
  31.     addService(nodeHealthChecker);  
  32.     dirsHandler = nodeHealthChecker.getDiskHandler();  
  33.   
  34.     this.context = createNMContext(containerTokenSecretManager,  
  35.         nmTokenSecretManager);  
  36.     //创建NodeStatusUpdater线程, 负责向RM注册和发送心跳(更新状态).   
  37.     //这里使用ResourceTracker协议向RM通信, 底层为YarnRPC. ResourceTracker接口提供了两个方法; 提供注册和心跳功能  
  38.     nodeStatusUpdater =  
  39.         createNodeStatusUpdater(context, dispatcher, nodeHealthChecker);  
  40.     // 监控node的资源(即资源是否可用, 四种状态, stopped, inited, notinited, started)  
  41.     NodeResourceMonitor nodeResourceMonitor = createNodeResourceMonitor();  
  42.     addService(nodeResourceMonitor);  
  43.     //创建ContainerManagerImpl服务, 管理container,使用ContainerManager协议, ContainerManager协议为APP向NodeManager通信的协议  
  44.     containerManager =  
  45.         createContainerManager(context, exec, del, nodeStatusUpdater,  
  46.         this.aclsManager, dirsHandler);  
  47.     addService(containerManager);  
  48.     ((NMContext) context).setContainerManager(containerManager);  
  49.   
  50.     // 创建webServer, 启动NodeManager的web服务. 通过yarn.nodemanagerwebapp.address设置地址, 默认端口为8042  
  51.     WebServer webServer = createWebServer(context, containerManager  
  52.         .getContainersMonitor(), this.aclsManager, dirsHandler);  
  53.     addService(webServer);  
  54.     ((NMContext) context).setWebServer(webServer);  
  55.   
  56.     dispatcher.register(ContainerManagerEventType.class, containerManager);  
  57.     dispatcher.register(NodeManagerEventType.classthis);  
  58.     addService(dispatcher);  
  59.     //初始化监控  
  60.     DefaultMetricsSystem.initialize("NodeManager");  
  61.   
  62.     // StatusUpdater should be added last so that it get started last   
  63.     // so that we make sure everything is up before registering with RM.   
  64.     addService(nodeStatusUpdater);  
  65.       
  66.     super.serviceInit(conf);  
  67.     // TODO add local dirs to del  
  68.   }  

2.4 start函数
  • 进行安全认证操作
  • 调用父类的start()函数依次启动在NodeManager类serviceInit中所有添加好的服务。其中AsyncDispatcher负责事件的传送,NodeStatusUpdater负责产生心跳事件,ContainerManagerImpl负责提供Hadoop RPC需要的函数等等

   AbstractService中start方法的具体实现:

[java]  view plain  copy
  1. @Override  
  2.   public void start() {  
  3.     if (isInState(STATE.STARTED)) {  
  4.       return;  
  5.     }  
  6.     //enter the started state  
  7.     synchronized (stateChangeLock) {  
  8.       if (stateModel.enterState(STATE.STARTED) != STATE.STARTED) {  
  9.         try {  
  10.           startTime = System.currentTimeMillis();  
  11.           //会调用子类NN中重写的同名方法  
  12.           serviceStart();  
  13.           if (isInState(STATE.STARTED)) {  
  14.             //if the service started (and isn't now in a later state), notify  
  15.             if (LOG.isDebugEnabled()) {  
  16.               LOG.debug("Service " + getName() + " is started");  
  17.             }  
  18.             notifyListeners();  
  19.           }  
  20.         } catch (Exception e) {  
  21.           noteFailure(e);  
  22.           ServiceOperations.stopQuietly(LOG, this);  
  23.           throw ServiceStateException.convert(e);  
  24.         }  
  25.       }  
  26.     }  
  27.   }  

   NodeManager中重写的serviceStart方法的主要代码:

[java]  view plain  copy
  1. @Override  
  2.   protected void serviceStart() throws Exception {  
  3.     try {  
  4.       doSecureLogin();  
  5.     } catch (IOException e) {  
  6.       throw new YarnRuntimeException("Failed NodeManager login", e);  
  7.     }  
  8.     super.serviceStart();  
  9.   }  

3、参考资料:

http://www.technology-mania.com/2014/05/an-insight-into-hadoop-yarn-nodemanager.html

http://www.cnblogs.com/biyeymyhjob/archive/2012/08/18/2645576.html


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值