服务器数据恢复环境:
EMC某型号存储;
8块硬盘组成raid5磁盘阵列。
服务器故障:
raid5磁盘阵列中2块硬盘离线,服务器崩溃,上层应用不可用。
服务器数据恢复过程:
1、数据恢复工程师将故障存储设备内的所有硬盘镜像备份,在镜像备份过程中没有发现离线硬盘有物理故障,直接镜像故障存储中所有硬盘。备份完成后把硬盘按照原样装回故障存储设备中,后续的数据恢复操作都在镜像文件进行,避免对原始数据造成二次破坏。
2、数据恢复工程师开始基于镜像文件对底层数据进行分析,计算出故障存储设备中原raid5的硬盘盘序、raid条带大小等raid信息,通过这些信息虚拟重组raid。
3、由于故障存储中的LUN是基于RAID组的,把raid虚拟重组出来后,北亚数据恢复工程师开始分析LUN在RAID组中的分配信息以及LUN分配的数据块MAP。
4、根据获取到的关于LUN的信息,数据恢复工程师使用北亚自研的raid恢复程序解释LUN的数据MAP,导出LUN的所有数据。
5、使用北亚自研的文件系统解释程序对导出的lun进行文件系统解释,在文件系统解释过程中出现报错,数据恢复工程师分析报错内容并调试文件系统解释程序,经过分析与调试确认是由于故障存储中某些元文件损坏导致解释zfs文件系统程序报错。
6、数据恢复工程师手动修复损坏的文件,直至zfs文件系统可以被正常解析。
7、多次修复和解析zfs文件系统后对最新数据进行验证,验证无误后联系用户亲自对恢复出来的数据进行验证,确认数据完整可用。
Tips:
1、服务器发生故障后,切忌对服务器进行操作;也不要随意取出硬盘,以免弄乱盘序。
2、如果需要取出硬盘,标记好硬盘的顺序之后再取出。
3、服务器阵列瘫痪后应该立即断电,不要做同步或强制上线操作,防止数据进一步破坏。