因为主机时间不同步导致的hbase zookeeper 节点宕机奔溃 一例


前几天 ,升级hadoop/hbase 集群,  新 添加了几十台机器, 

硬件部门,安装好主机os 后就交付给我们了,

安装好软件环境,配置好,就启动接入集群了,运行了一个礼拜,系统运行正常。 


昨天的时候淘汰一台旧机器,上面跑了zookeeper , 需要准备一个新的zookeeper 节点来代替,如实就找了一台hbase 节点上启动了zookeeper 

这个时候问题来了, zookeeper  启动后总是在报错,  一直在确定自己的状态。 


[code]
2015-07-01 17:43:10,666 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification time out: 400
2015-07-01 17:43:11,066 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification time out: 800
2015-07-01 17:43:11,482 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Connection broken for id 4, my id = 6, error =
java.net.SocketException: Connection reset
        at java.net.SocketInputStream.read(SocketInputStream.java:168)
        at java.net.SocketInputStream.read(SocketInputStream.java:182)
        at java.io.DataInputStream.readInt(DataInputStream.java:370)
        at org.apache.zookeeper.server.quorum.QuorumCnxManager$RecvWorker.run(QuorumCnxManager.java:747)
2015-07-01 17:43:11,485 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Interrupting SendWorker
2015-07-01 17:43:11,488 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Interrupted while waiting for message on queue
java.lang.InterruptedException
        at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.reportInterruptAfterWait(AbstractQueuedSynchronizer.java:1961)
        at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2038)
        at java.util.concurrent.ArrayBlockingQueue.poll(ArrayBlockingQueue.java:342)
        at org.apache.zookeeper.server.quorum.QuorumCnxManager.pollSendQueue(QuorumCnxManager.java:831)
        at org.apache.zookeeper.server.quorum.QuorumCnxManager.access$500(QuorumCnxManager.java:62)
        at org.apache.zookeeper.server.quorum.QuorumCnxManager$SendWorker.run(QuorumCnxManager.java:667)
2015-07-01 17:43:11,488 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification: 6 (n.leader), 0x0 (n.zxid), 0x1 (n.round), LOOKING (n.state), 6 (n.sid), 0x0 (n.peerEPoch), LOOKING (my state)
2015-07-01 17:43:11,488 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Connection broken for id 5, my id = 6, error =
java.io.EOFException

[/code]


当时想,没有道理,新机加集群的时候,我们也是新增了2个zookeeper 节点,就直接加进去了,运行ok 。

想想,要不把hbase 的这个节点也重启下,看看什么情况。

于是就是重启了hbase 的节点,  这下问题来了: 

[code]

org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server hadoop-8-25,60020,1435724000483 has been rejected; Reported time is too far out of sync with master.  Time difference of 30737ms > max allowed of 30000ms
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:39)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:27)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:513)
        at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:95)
        at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:79)
        at org.apache.hadoop.hbase.regionserver.HRegionServer.reportForDuty(HRegionServer.java:1864)
        at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:671)
        at java.lang.Thread.run(Thread.java:619)

[/code]

节点起不来,无法接入集群了,已启动, 然后退出了,然后留下pid 文件  进程退出。 

日志就报上面的错误。 

一般情况先我们主机系统都是安装了时间同步的,所以处理问题的时候根本就没有从主机时间不同这个方面来考虑,认为是系统配置什么方面除问题了,走了一些弯路。 

一直无解, 最后还是看看时间同步吧,一看 问题来了, hbase 节点 比 namenode 节点时慢了30多秒, 正好应对了上面的时间的告警。 

然后改了时间,这下ok 了,节点直接就加进去了。 


通知硬件部门,配置时间同步, 结果第二天早上整个系统里新加的机器, 除了新修改过那台外,都掉线了,原来昨天硬件部门配置的ntp 服务同步除问题,新加机器时间都慢了超过30秒了。

赶紧处理掉。 


时间完成同步后,整个集群就可以起来了。起来后,因为还有有节点是正常的,导致数据不均匀了,性能上冒了一会尖尖,然后就平稳了。 



记录下这个case  给兄弟们一个提醒。 




来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/133735/viewspace-1721279/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/133735/viewspace-1721279/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值