背景
运行中的环境,平台发现告警NameNode Directory Status报警,具体为Failed directory count: 1,不影响使用,然后第二天晚上又发生Last Checkpoint的报错,查看HDFS Standby NameNode节点日志发现Exception in doCheckpoint,然后直接重启该Namenode,就发现重启失败,错误提示为NameNode is not formatted.然后通过hdfs-site.xml找到dfs.namenode.name.dir目录,发现为空。
方案
- 确保Active NameNode是正常工作
- 不要从Active NameNode节点/hadoop/hdfs/namenode目录下拷贝任何数据到Standby NameNode.
- 在Standby NameNode节点上执行 hdfs namenode -bootstrapStandby. 该命令会回复Standby NameNode节点的元数据
- 通过Ambari启动Standby NameNode
- 通过Ambari重启ZKFailoverController