前 言
不知不觉上班两个多月了,由于刚上班,要学习的东西有很多,所以一直没有时间来更新博客。最近BOSS给我一个很艰巨的任务,让我压力山大啊!那就是某医院的HP-EVA4100数据恢复。虽然BOSS把EVA的内部算法都告诉我了,但还是很棘手。不过,最终在我们的不懈努力下将EVA4100的数据恢复出来了。历时两天,恢复的数据用户也很满意。下面分享一下整个数据恢复的过程。
一、造成EVA故障的原因
由于是BOSS直接和对方联系的,我不知道具体是什么情况,不过BOSS给我任务时跟我说是因为某个RSS内同时掉了两块盘,造成正在使用的Vdisk不可用,Vdisk是创建的RAID5。用户在发现数据丢失后,没有再使用EVA4100,而是直接拿到我们公司进行数据恢复,像这种情况可以初步断定数据没有被覆盖,恢复可能性很高。
二、检测EVA控制器以及硬盘
1,、检查EVA4100和磁盘柜时发现并没有故障。
2、使用光纤将磁盘柜连接到服务器上,并使用Winhex打开所有磁盘。
3、使用Winhex打开磁盘时发现有两块磁盘打不开,经硬件工程师检测发现是硬盘物理故障。
4、初步断定是因为有两块磁盘物理故障造成EVA不可,从而导致数据丢失。将两块故障硬盘交给硬件组进行检测及修复,不料结论均为盘片划伤,无法恢复。
三、拟出初步解决方案
初步知道了故障的原因。由于这两块磁盘上的数据无法恢复,所以只能在缺两个磁盘的情况下尽可能的恢复这组Vraid5的数据了。
1、将EVA4100的控制器和机柜正常关机,并将磁盘标号做全盘镜像。
2、使用Winhex逐个打开磁盘,分析磁盘信息。
3、分析每个磁盘时发现,在1T磁盘和250G磁盘内都有RAID记录信息。并且整个EVA4100里面一共有10个LUN。
4、分析RSS发现前几个RSS对应的磁盘正好是1T的磁盘,而掉线的两块磁盘则位于第4组RSS内。因此可以断定1T磁盘的数据是完整的。针对RSS4丢失的数据,可以根据XOR生成一部,但还是会丢失一部分。
至此整个分析的过程就结束了。
四、成功恢复数据
根据上述的分析结果,重组LUN以及数据存储MAP,并根据EVA的内部算法对LUN进行数据提取。最终恢复99%以上数据,只有极少部分数据是完全丢失的。恢复的数据用户很我满意,历时两天加上拷贝数据一天。
本文转自yun5277 51CTO博客,原文链接:http://blog.51cto.com/dengqi/1347102,如需转载请自行联系原作者