大数据平台数据库被删除
故障报告
1. 故障发生时间及现象
在17:10分开发组同事反馈集群异常,发现/user/hive/warehouse文件夹被删除,通过hadoop前台监控页面观察可看出集群空间占用量在逐渐减少;分析namenode日志发现在集群还在不停删除文件块。
2. 故障解决方式及解决时间
2.1. 故障处理过程:
1、在17:30分紧急停止namenode集群。观察到datanode节点数据量从90%下降到70%左右,评估损失约20%数据量;
2、经过和橘云后台专家沟通及分析后,由于datanode节点数据已经被清除部分,该部分数据将不可恢复。由于集群停止比较及时,未删除的数据可以恢复出来。
3、在19:00到23:00进行数据恢复操作,具体如下:
1)、直接启动namenode,发现少了1700多万文件块,数据缺失非常多,数据异常。
2)、观察到系统上存在16:50和17:30的fsimage文件,经讨论评估使用16:50的fsimage元数据恢复系统将能恢复更多数据块。
删除datanode01上的fsimage和editlog在16:50后的文件,未处理journalnode上的文件,重启异常。
3)、分别备份datanode02、datanode03、datanode04上的元数据文件,把datanode01上的fsimage和editlog文件传送到对应三台服务器上。