一、故障背景
HDP 的Ambari控制台显示某台主机的RegionServer服务下线
二、根本原因分析(RCA,Root Cause Analysis)
(1)从Ambari控制台手动start RegionServer服务,失败。
(2)检查这台主机上的RS有关日志,发现有多条记录:
org.apache.hadoop.hbase.ClockOutOfSyncException:
Server 172.25.224.4,16020,1613788579799 has been rejected; Reported time is too far out of sync with master.
Time difference of 45596ms > max allowed of 30000ms”
意思是这台主机上的系统时钟落后主节点已超出30秒的阈值。
why1: 为什么这台机器的时间落后于主节点?
时间同步服务ntp下线,并且未能自动重启。
why2: 为什么ntp服务下线没能自动重启?
RS所在的云主机是用的阿里云ECS,经过咨询阿里云的售后支持人员,答复说虽然ECS预装时间同步服务,但是该服务下线之后并不会自动重启,需要用户手动维护。
三、如何解决和预防
【如何解决】
紧急解决方案: 先修改下线RegionServer机器上的系统时间,即date -s “