情况
我们由于某些配置参数的调整 有时候需要重启namenode。
最方便的操作就是在CM后台直接操作–重新启动。
但是这次遇到的情况比较诡异,点击重启之后 namenode的状态变成了 已停止。
再次去点击重新启动则报错:
Command aborted because of exception:Command timed-out after 150 seconds
角色正在启动
HDFS启动的时候,如果DataNode上报的block个数达到了元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。
本来以为namenode需要去重新平衡块的情况,但是已经过了8个小时还没启动好,就有点慌了。
查了下资料,一般如果secondryNamenode节点没问题的话 fileimage文件大小并不会很大(GB左右)。
namenode的重启应该在50分钟左右是正常的。
时间超过了8个小时还没重启好,肯定是哪里出了问题。
排查第一步,先看namenode的角色日志