Hbase2.0某台RegionsServer宕机的RCA以及如何预防

一、故障背景

HDP 的Ambari控制台显示某台主机的RegionServer服务下线

二、根本原因分析(RCA,Root Cause Analysis)

(1)从Ambari控制台手动start RegionServer服务,失败。

(2)检查这台主机上的RS有关日志,发现有多条记录:

org.apache.hadoop.hbase.ClockOutOfSyncException:
    Server 172.25.224.4,16020,1613788579799 has been rejected; Reported time is too far out of sync with master.
    Time difference of 45596ms > max allowed of 30000ms” 

意思是这台主机上的系统时钟落后主节点已超出30秒的阈值。

why1: 为什么这台机器的时间落后于主节点?
时间同步服务ntp下线,并且未能自动重启。

why2: 为什么ntp服务下线没能自动重启?
RS所在的云主机是用的阿里云ECS,经过咨询阿里云的售后支持人员,答复说虽然ECS预装时间同步服务,但是该服务下线之后并不会自动重启,需要用户手动维护。

三、如何解决和预防

【如何解决】
紧急解决方案: 先修改下线RegionServer机器上的系统时间,即date -s “

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值