某2节点万兆网卡直连vSAN延伸群集(网络拓扑如图1所示),在某一天晚上,首选站点节点1服务器(图1中IP地址为192.168.251.2的计算机)的一条64GB内存出问题导致服务器死机。第二天管理员到单位之后,发现所有的业务虚拟机都无法使用。此时vCenter Server已经无法连接。使用vSphere Host Client可以直接登录到192.168.251.2、192.168.251.3、192.168.251.6等每台主机,但虚拟机的信息不正常,已经无法显示虚拟机的名称,另外vSAN存储容量只有其中一台主机的容量(每台主机配置了1个磁盘组,每个磁盘组有1块400GB的SSD、5块1.2TB的HDD,总容量是10.92T,现在只有5.46TB)。
图1 拓扑图
在关闭这三台服务器,然后打开服务器的电源之后,业务仍然没有恢复。后来检查发现,将IP地址为192.168.251.2的故障主机关闭,只打开IP地址为192.168.251.3与192.168.251.6的主机(包括见证虚拟机,IP地址为192.168.251.8),此时包括vCenter Server在内的所有虚拟机都自动启动并可以对外提供服务。如果此时再打开192.168.251.2的主机,则所有的虚拟机都会死机。为了不影响业务的办理,用户暂时关闭了192.168.251.2的主机。此时在vSphere Web Client中显示192.168.251.2无响应,主机已从VC断开连接,如图2所示。
图2 IP地址为192.168.251.2的主机已断开连接
在“监控→vSAN→虚拟对象”中,可以看到所有