服务器数据恢复环境:
DELL PowerVault系列某型号存储,15块硬盘搭建了一组RAID5磁盘阵列。
服务器故障&检测:
存储设备raid5阵列中一块磁盘由于未知原因离线,管理员对该磁盘阵列进行了同步操作。在同步的过程中又有一块磁盘指示灯报警,磁盘离线,磁盘阵列同步失败,raid5阵列崩溃,存储无法正常工作。
北亚企安数据恢复工程师对故障存储中的物理磁盘状态进行了检测,经过检测发现该raid5磁盘阵列中先离线的硬盘访问速度极为缓慢,第二块离线的磁盘有少量坏扇区,其他磁盘无明显物理故障。
该raid5磁盘阵列只包含一个卷组,该卷组占用阵列全部空间,该卷组只有一个起始位置为0扇区的XFS裸分区。
RAID5阵列只支持一块磁盘的错误冗余功能,当第二块磁盘离线后阵列便无法正常工作,所以整个阵列的崩溃主要是由于第二块磁盘的离线造成的。第二块磁盘是否能处理好是数据恢复的关键。
服务器数据恢复过程:
1、对故障存储中15块硬盘进行异或测试,所有磁盘全部通过测试,没有发现明显错误。
2、以只读方式镜像备份所有完好的磁盘数据,后续的数据分析和数据恢复操作都基于镜像文件进行,避免在数据恢复过程中对原始磁盘数据造成二次破坏。
3、对第二块离线的硬盘进行单独备份,备份过程中略过坏扇区。计算第二块硬盘损坏扇区位置的数据,并将其写入镜像文件。
4、基于镜像文件分析原RAID5阵列结构信息,根据分析获取到的raid相关信息构建RAID5阵列。
5、重构RAID后验证RAID结构是否正确。
6、将第二块磁盘的镜像备份到新硬盘,并将其强制上线。更换第一块磁盘并对其进行同步。
7、完成上述操作后,由用户方工程师亲自对恢复出来的数据进行检测,经过反复检测,用户方确认恢复出来的数据完整有效。
服务器数据恢复总结:
因为故障存储中所有硬盘的异或测试全部通过,这意味着存储发生故障后没有新数据的写入或者结构的改动。在这种情况下可以根据其他几块完好的硬盘计算出坏硬盘对应位置的数据。恢复完成后进行检查,目录结构完整,重要文档完好,FSCK无任何错误提示,用户认可所恢复的数据。