在上一篇文档中,曾详细的介绍了VSA群集的部署及安装全过程,以及安装过程中可能会遇到的一些问题及对应的解决方法,本篇将介绍VSA群集的容灾及故障恢复情况。部署一套环境,不能说是安装完就完事了,肯定要对故障发生时的恢复做一定的测试,才能更好的理解整个平台的实用效果。 
八、故障恢复
在之前的文档中曾有说明,我们的实验采用的是三主机的结构,但不论是双主机还三主机结构,都仅能够对单节点故障进行恢复,这个原因,当了解了VSA的整个群集结构就会很明白了,也正是因此,VSA群集只有双主机和三主机两种部署结构模式。下图为VSA群集三主机结构拓扑图:

其中:标示IP地址的图标为三台ESXi物理主机,VSA-0、VSA-1、VSA-2为三台ESXi主机内构建的用于发布NFS共享磁盘的SUSE Linux虚拟机,VSADs(浅蓝×××标)为每个VSA虚拟机分别创建的两个共享磁盘,而每两个VSA虚拟机采用RAID1的模式实现相互冗余共同提供两个VSADs(灰×××标)镜像模式的共享磁盘,最后共提供三个镜像模式共享磁盘。这样,其中任何一台物理主机或者虚拟机断电或者宕机,也不会影响到共享磁盘的VSADs的正常使用。这样的容灾模式是非常安全的。 www.it165.net
1.单节点断电故障恢复操作
这里我们已经将10.15.20.103这台主机电源拔下,当前此主机处于断电状态时,VSA群集状态便如下图:



    注:主机在断电之后,对应的部分共享存储盘处于已降级状态,同时在映射拓扑中状态也会有所改变。
我们给断电的主机重新加电并启动,在正常启动完成后,当VSA群集检测到该主机信号后,会立即对群集存储进行恢复,恢复群集及存储状态所需时间大约为5分钟左右。恢复后即为下图(消除了已降级状态):



2.单节点主机瘫痪故障及替换恢复操作
这里模拟了10.15.20.103这台主机瘫痪故障,主机由于硬件故障等原因瘫痪,已经断电且不能在群集中运行,需要在维护该主机后或通过备用物理机来替换该主机时,VSA群集的状态会出现如下图变化:

    要说明的是,如果主机故障导致系统崩溃,或者使用新装好ESXi的备用机替换故障主机时,该如何操作呢?参考下面的方法,就能完成替换主机:
这里我们需要先准备好替换的备用ESXi主机,该ESXi主机的版本需要与VSA群集中的其他主机版本相同,在准备好替换的主机后,将新的主机连接进入vCenter,但不要手动将该主机加入VSA群集中,
在vCenter中的VSA Manager控制面板中的“设备”选项卡中,我们可以看到故障主机对应设备状态已经是“脱机”状态,右键单击此“脱机”状态的设备,然后选择“替换设备”,如下图:

选择了“替换设备”后,会弹出设备替换操作会话窗口,按如下图示方法进行操作:
 

 

此处,便开始设备替换的安装操作,会为新的ESXi主机自动安装VSA群集。
自动安装VSA群集的时间约为30分钟左右,根据主机的配置以及已占用资源的不同,所需时间可能会有差异,安装好之后,VSA群集状态恢复如下图:


注:我们看到VSA群集的数据存储状态依然是已降级状态,这是因为替换上来的主机,还没有完成共享磁盘配置,而此配置,也是由VSA群集自动完成的。
在为新替换的ESXi主机安装完VSA群集后,群集会自动开始恢复共享磁盘的配置,在vCenter的任务栏中,我们会看到如下图的任务正在进行:
 



该恢复操作包含两个此任务,完成此配置的恢复,大约需要7~9小时的时间不等,而根据主机配置以及已使用资源的不同,时间可能会有差异。
配置恢复完成后,VSA群集即恢复为正常状态。
 
注意:在自动安装的VSA群集,是默认不开启vSphere DRS功能的,如果在使用过程中因为需要开启了vSphere DRS功能,则在做故障切换或者替换设备时,需要暂时关闭该功能,否则故障切换可能会因为资源池的原因出现错误。设置开启及关闭vSphere DRS功能时,在vCenter中右键单击“VSA HA cluster”群集,然后选择“编辑设置”后出现设置会话框,详情设置如下图:

    至此,VSA群集的故障恢复详测结束。如有疑问欢迎投稿及联系本人。