今天一早接到客户电话,说单位内部分用户不能访问网络,我登录检查之后发现存储的一个控制器损坏导致,主要原因概述如下。
当前客户核心业务运行在vSphere虚拟化平台,该单位有3台HP服务器+1台IBM 3524存储,服务器与存储之间采用SAS接口连接,其中2台HP服务器使用SAS线连接到A控制器,另1台HP服务器使用SAS线连接到B控制器,服务器与存储之间无冗余连接。3台HP服务器安装ESXi 配置成HA,所有虚拟机都保存在IBM 3524存储中,当A控制器损坏之后,前2台HP服务器丢失到存储的连接导致部分虚拟机不能启动,因为HA中损坏了2台服务器,HA失效。知道原因之后,让客户将其中1台HP服务器的SAS线连接到B控制器的空闲端口(当前IBM 3524有两个控制器,每个控制器有2个SAS接口,所以B控制器当前有一个端口空闲),将这台服务器重新启动,此时会有2台服务器可以正常工作,之后将业务虚拟机启动,此时单位应用暂时恢复。
在业务恢复之后,因为当前的存储已经过保,所以申请购买新的同型号的控制器,控制器到货之后更换损坏的A控制器,在更换的过程中又发现Slot 8的磁盘即将失效,在更换控制器后同时替换了即将失效的磁盘,下面介绍一下主要的过程与步骤。
(1)进入IBM DS Storage Manager管理软件,可以看到A控制器已经离线,同时有两块盘有黄色的五星符号,如图1-1所示。
图1-1 已经离线
【说明】当前示意图中Slot 3与Slot 8都有黄色的五星符号,其中Slot 3里面有一块磁盘,因为最初该盘位有点故障帮此盘位未分配到陈列中,故当前磁盘未分配未使用,但此磁盘是一块可用的磁盘,可以将其从盘位取出,放到其他需要的位置;而Slot 8分配为Array-2逻辑磁盘,该磁盘有数据丢失的风险。
(2)在"Recovery Guru"的进一步检查中,看到第8盘位的磁盘即将失效,有数据丢失的风险,如图1-2所示。