【服务器数据恢复】某品牌MSA SAN存储数据恢复案例

服务器数据恢复环境:
某品牌MSA SAN Storage存储;
共8块SAS硬盘:7块硬盘组成RAID5,1块热备盘;
基于RAID5的LUN有6个,均分配给HP-Unix小机使用,上层做的LVM逻辑卷,重要数据为Oracle数据库及OA服务端。

服务器故障:
RAID5有2块硬盘损坏,只有一块热备盘激活,RAID5瘫痪,上层LUN无法使用。服务器管理员联系我们数据恢复中心进行数据恢复。

服务器数据恢复过程:
1、北亚服务器数据恢复工程师收到硬盘以后检测所有硬盘没有发现物理故障,使用硬盘坏道检测工具检测也没有发现坏道。

2、备份数据。使用工具将所有硬盘都镜像成文件。

 

3、故障分析:
由于硬盘没有发现坏道和其他物理故障,服务器数据恢复工程师初步判断RAID故障的原因是某些磁盘读写不稳定。因为该型号存储控制器的磁盘检测策略严格,会把性能不稳定磁盘认定为坏盘并踢出RAID组。一旦掉线的盘超过该RAID允许掉盘的极限,该RAID将不可用,上层基于RAID的LUN也会不可用。

4、分析RAID结构:
该存储的LUN都是基于RAID的,因此需要先分析底层RAID信息,然后根据分析获取到的信息重构原始RAID。服务器数据恢复工程师经过分析发现4号盘的数据同其他盘不太一样,初步判断该盘是hot Spare盘。接着分析其他盘,分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况分析出RAID条带大小、磁盘顺序、数据走向等
RAID信息。

5、分析RAID掉线盘:
根据分析获取到的RAID信息使用北亚自主开发的RAID虚拟程序将原始的RAID虚拟重构。但由于该RAID一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。服务器数据恢复工程师分析每一块硬盘中的数据后发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,初步判断此盘是最先掉线的。通过北亚自主开发的RAID校验程序对这个条带做校验,最终确定最先掉线的硬盘了。

6、分析RAID中的LUN信息:
由于LUN是基于RAID的,将RAID虚拟重构出来以后分析LUN在RAID中的分配情况和LUN分配的数据块MAP。只需要将每一个LUN的数据块分布MAP提取出来,然后针对这些信息编写相应的程序对所有LUN的数据MAP做解析,然后根据数据MAP导出所有LUN的数据即可。

 

7、解析LVM逻辑卷:
对导出来的LUN数据做分析发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。通过解析每个LUN中的LVM信息发现一共有三个LVM,一个LVM中划分了一个LV,存放OA服务器端的数据;另外一个LVM中划分了一个LV,存放临时备份数据;剩余4个LUN组成一个LVM,划分了一个LV,存放Oracle数据库文件。北亚服务器数据恢复工程师编写LVM解释程序将每个LVM中的LV卷解释出来,但解释程序出错。

8、修复LVM逻辑卷:
分析程序报错的原因,开发工程师debug程序出错的位置。文件系统工程师对恢复出来的LUN做检测,检测存储瘫痪是否会导致LMV逻辑卷的信息损坏。经过检测发现存储瘫痪确实导致LVM信息损坏。人工对损坏的区域进行修复,并同步修改程序,重新解析LVM逻辑卷。

9、解析VXFS文件系统:
搭建HP-Unix环境,将解释出来的LV卷映射到HP-Unix,并尝试Mount文件系统。结果Mount文件系统出错,尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,但修复后还是不能挂载。分析可能是底层vxfs文件系统的部分元数据可能被破坏,需要进行手工修复。

10、修复VXFS文件系统:
服务器数据恢复工程师对解析出来的LV进行分析,根据VXFS文件系统的底层结构校验此文件系统是否完整。经过分析发现底层VXFS文件系统有问题,存储瘫痪的同时文件系统正在执行IO操作,部分文件系统元文件损坏。手工修复这些损坏的元文件保证VXFS文件系统能够正常解析。将修复好的LV卷挂载到HP-Unix小机上尝试Mount文件系统,文件系统没有报错,成功挂载。
        
11、恢复所有用户文件:
在HP-Unix机器上mount文件系统后将所有数据均备份至指定磁盘空间。

 

12、检测数据库文件是否完整:
使用Oracle数据库文件检测工具检测每个数据库文件是否完整,没有发现错误。使用北亚自主研发的Oracle数据库检测工具检测,发现有部分数据库文件和日志文件校验不一致,安排数据库工程师对此类文件进行修复并再次校验,直到所有文件通过校验。

13、启动Oracle数据库:
将恢复出来的Oracle数据库附加到原始生产环境的HP-Unix服务器中尝试启动Oracle数据库,Oracle数据库启动成功。


 


数据验证:
启动Oracle数据库和OA服务端,在本地电脑安装OA客户端,通过OA客户端对最新的数据记录以及历史数据记录进行验证,并且安排不同部门人员进行远程验证。经过验证确认数据完整无误,数据恢复成功。

以下是对提供的参考资料的总结,按照要求结构化多个要点分条输出: 4G/5G无线网络优化与网规案例分析: NSA站点下终端掉4G问题:部分用户反馈NSA终端频繁掉4G,主要因终端主动发起SCGfail导致。分析显示,在信号较好的环境下,终端可能因节能、过热保护等原因主动释放连接。解决方案建议终端侧进行分析处理,尝试关闭节电开关等。 RSSI算法识别天馈遮挡:通过计算RSSI平均值及差值识别天馈遮挡,差值大于3dB则认定有遮挡。不同设备分组规则不同,如64T和32T。此方法可有效帮助现场人员识别因环境变化引起的网络问题。 5G 160M组网小区CA不生效:某5G站点开启100M+60M CA功能后,测试发现UE无法正常使用CA功能。问题原因在于CA频点集标识配置错误,修正后测试正常。 5G网络优化与策略: CCE映射方式优化:针对诺基亚站点覆盖农村区域,通过优化CCE资源映射方式(交织、非交织),提升RRC连接建立成功率和无线接通率。非交织方式相比交织方式有显著提升。 5G AAU两扇区组网:与三扇区组网相比,AAU两扇区组网在RSRP、SINR、下载速率和上传速率上表现不同,需根据具体场景选择适合的组网方式。 5G语音解决方案:包括沿用4G语音解决方案、EPS Fallback方案和VoNR方案。不同方案适用于不同的5G组网策略,如NSA和SA,并影响语音连续性和网络覆盖。 4G网络优化与资源利用: 4G室分设备利旧:面对4G网络投资压减与资源需求矛盾,提出利旧多维度调优策略,包括资源整合、统筹调配既有资源,以满足新增需求和提质增效。 宏站RRU设备1托N射灯:针对5G深度覆盖需求,研究使用宏站AAU结合1托N射灯方案,快速便捷地开通5G站点,提升深度覆盖能力。 基站与流程管理: 爱立信LTE基站邻区添加流程:未提供具体内容,但通常涉及邻区规划、参数配置、测试验证等步骤,以确保基站间顺畅切换和覆盖连续性。 网络规划与策略: 新高铁跨海大桥覆盖方案试点:虽未提供详细内容,但可推测涉及高铁跨海大桥区域的4G/5G网络覆盖规划,需考虑信号穿透、移动性管理、网络容量等因素。 总结: 提供的参考资料涵盖了4G/5G无线网络优化、网规案例分析、网络优化策略、资源利用、基站管理等多个方面。 通过具体案例分析,展示了无线网络优化中的常见问题及解决方案,如NSA终端掉4G、RSSI识别天馈遮挡、CA不生效等。 强调了5G网络优化与策略的重要性,包括CCE映射方式优化、5G语音解决方案、AAU扇区组网选择等。 提出了4G网络优化与资源利用的策略,如室分设备利旧、宏站RRU设备1托N射灯等。 基站与流程管理方面,提到了爱立信LTE基站邻区添加流程,但未给出具体细节。 新高铁跨海大桥覆盖方案试点展示了特殊场景下的网络规划需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值