断电事故报告
一、事故概述
2023年12月1日,一次偶然的半分钟断电,通电后发现集群无法正常启动。
二、事故原因调查
1.集群做了一个高可用,NameNode节点一个是master01, 一个是master03, 发现master02 和master03两个节点的 jn 下元数据为空,master01中jn元数据信息是全的。如下图:
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/988e75bd80e7b99a8e1411018f1ccb8e.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/5992de49a2a937da86378e6974aa8d3a.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/a62e1712a748025aea6e470de4eb60c0.png)
2. 查看日志-发现报错信息:如下图
tail -f /var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-master03.log.out