最近,客户一台IBM xSeries 346服务器不能启动。先了解这款服务器的基本参数,Xeon 3GHz/1GB
DDR2/7902Raid卡,机身尺寸2U,客户将两块SCSI接口146G硬盘做Raid1。
客户说明服务器无法启动,需要现场支撑。赶到现场,发现系统停留在硬盘检测环节无法通过。重启问题依旧,硬盘无法完成自检,并伴有硬盘异响声。两块硬盘分别位于0,1位置。分别排查两块硬盘,发现0号硬盘已坏。由于是做的Raid1,数据应当保存完好。
抽掉损坏的0号盘,将1号盘作为单盘启动,一切正常。
----------------------------------------------昏哥线------------------------------------------
虽然1块硬盘可以继续运作,但从可靠性角度出发,应当重组Raid1,并且原来的两块硬盘都已经运行了几年,继续运作的1号盘可靠性降低,因此客户购买两块新的IBM
SCSI硬盘,准备更换。
思路:由于1号盘数据完整,可将此盘作为源盘,用两块新盘重组Raid1。并迁移数据。
有了思路,还得进一步细化,形成操作步骤,并全面的预演一遍,防止出现意料之外的情况。然后就可以动手了。
首先,当然地,给现有的数据做备份,以防万一。备份的方式,可以是数据级的,也可以是磁道级的,这个看你方便了。至少要把硬盘上的重要数据都复制出来。我用移动硬盘备份了大约50G的数据,耗时1小时左右。
然后是数据迁移。这里可以有两种方法,先说说我用的方法:把源盘放到其他硬盘槽里,然后在0号槽和1号槽里装入新的硬盘,启动系统,适时按Ctrl+A进入阵列卡BOIS。创建阵列,选Raid1,用空格键勾选0号和1号两块硬盘,开始创建一组新的Raid1。待完毕,已耗时1个半小时。
接着用事先准备好的启动工具U盘引导,启动Ghost,做完整硬盘克隆将数据复制到新的磁盘阵列上。此步骤耗时1小时。
最后,卸掉旧的源盘,工作完成。
还有另一种方法,但是理论上耗时更久。
原理是:先在0号槽装入一个新硬盘,与旧的1号盘组成Raid1,待数据同步后拔出1号盘,用新硬盘替换,再与0号盘组建一次Raid1,再次同步数据,最后就变成了两块新硬盘组成的Raid1。
第一步,先在0号槽装入一个新硬盘,在创建Raid1的时候,有两个选择用两块硬盘组成一个新的Raid1,如果选择这项,所有硬盘上的数据都将被清除。这个案例里当然不能选这项。第二个新建Raid1的选项是:Copy
from (0) to
(1)。意思是将0号盘的数据复制到1号盘,并形成Raid1关系。但问题是0号盘是新插入的硬盘,若选此项,将用0号盘上的空白数据覆盖旧硬盘上的有用数据。因为系统并不能认识哪块硬盘是新插入的,而只能将0号硬盘槽里的硬盘作为主盘,复制到其他硬盘槽中。所以应当把旧的源盘换到0号槽中,在其他槽中插入新的硬盘,在组建Raid1时,选择这项Copy
from (0) to (X)。
第二步,待完成后,拔出旧的源盘,把1号盘换到0号槽中,然后再将另一块新硬盘装入其他槽中,再执行一次上述步骤。这样,两块新硬盘就组成了新的Raid1,并已经完成了数据迁移。
总结,遇到问题要先细心判断问题所在,如果问题不明确,需要排查,就从嫌疑最大的部件开始。解决问题时,不要急于动手,先理清思路,找到最稳妥的办法,尤其是涉及到数据安全时,还应先好做数据备份工作,以留退路。然后将解决步骤在脑海里进行演练,如果步骤复杂,有条件的可以用搭建测试环境进行测试操作。确保无误后再实际操作。在生产环境中,尽量采用数据安全优先原则,比如使用高可靠性的Raid1。
Technorati 标签: IBM,硬盘,Raid,故障
From: 本站原创