namenode任务线程之HeartbeatMonitor

上篇分析了PendingReplicationMonitor   这次分析HeartbeatMonitor

 

看到这个类名,给我的第一印象就是server端定时心跳client端,其实在以前的话都是这么来做的,但是当client端太多的时候就不适合这种心跳检测模式了,改而换成client给server端发送心跳信息,server端只是负责接收心跳而已,他只是需要在一个端口listen心跳信息即可,如果在一定时间内没收到心跳信息就认为这个client挂了,这种实现方式在client多的情况下很有效,而且对server端的压力大大降低。

 

好了有了上面的铺垫,那么我们来看看HeartbeatMonitor具体做了什么

首先我们定位到具体执行心跳检测的方法上heartbeatCheck,然后看下他的java doc

Java代码     收藏代码
  1. /**  
  2.   * Check if there are any expired heartbeats, and if so,  
  3.   * whether any blocks have to be re-replicated.  
  4.   * While removing dead datanodes, make sure that only one datanode is marked  
  5.   * dead at a time within the synchronized section. Otherwise, a cascading  
  6.   * effect causes more datanodes to be declared dead.  
  7.   */   
  8.  void  heartbeatCheck()   

   注释说的很明白我就不翻译了,我们来看看程序的具体实现逻辑,所有的心跳信息都存放在一个列表中,

 

Java代码     收藏代码
  1. /**  
  2.    * Stores a set of DatanodeDescriptor objects.  
  3.    * This is a subset of {@link #datanodeMap}, containing nodes that are   
  4.    * considered alive.  
  5.    * The {@link HeartbeatMonitor} periodically checks for outdated entries,  
  6.    * and removes them from the list.  
  7.    */   
  8.   ArrayList<DatanodeDescriptor> heartbeats   

    那么这些心跳数据从何而来呢,顺腾摸瓜最后到了DataNode,调用过程如下

 

Java代码     收藏代码
  1. DataNode.create()------->NameNode.register()------->FSNamesystem.registerDatanode  

 

   首先看下心跳的间隔时间和过期时间

 

Java代码     收藏代码
  1. long  heartbeatInterval = conf.getLong( "dfs.heartbeat.interval" 3 ) *  1000 ;  
  2.   
  3. this .heartbeatRecheckInterval = conf.getInt(  
  4.        "heartbeat.recheck.interval" 5  *  60  *  1000 );  // 5 minutes  心跳检测一次dataNode的心跳信息   
  5.   
  6. his.heartbeatExpireInterval = 2  * heartbeatRecheckInterval +  
  7.      10  * heartbeatInterval;                                     //datanode的心跳过期时间 超过这个时间的就认为死了   

 

  检测分2步

 

Java代码     收藏代码
  1. 1 // locate the first dead node.   
  2. 比较 datanode发来的心跳信息更新时间 与 过期时间 确定是否已经是死datanode  
  3.   
  4. 2 :如果是死节点则进一步执行一些与这个节点相关的操作  
  5. 例如 : 1 )删除心跳检测信息  
  6.            2 )更新统计信息  
  7.            3 )删除块映射信息  
  8.            4 )从无效集合中删除该节点信息(这个无效节点是干啥的?)  
  9.            5 )删除节点集群中该节点的信息(这个信息是干啥的?)  

 

上面只是在datanode创建的时候发送的心跳信息,其实在正常运行过程中也是需要发送心跳信息的:

发送过程如下:

Java代码     收藏代码
  1. DataNode.create------->DataNode.start------->DataNode.offerService---->NameNode.sendHeartbeat---->FSNamesystem.handleHeartbeat  

 在handleHeartbeat中主要通过更新DatanodeDescriptor这个对象实现的,因为同一个DatanodeDescriptor既放在

heartbeats列表中又放在datanodeMap中,引用是一个。

 

然后这里有一点不好的是其实列表里的对象是没有重复的,那就应该使用set了,结果搞了个list,equal只比较了name和storageID

更多信息请查看 java进阶网 http://www.javady.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值