【vsphere高可用】主机出现故障或隔离后的处理

最新推荐文章于 2024-02-25 15:15:00 发布

hongdi

最新推荐文章于 2024-02-25 15:15:00 发布

阅读量2.9k

点赞数

分类专栏：云计算文章标签：服务器网络运维

本文链接：https://blog.csdn.net/hongdi/article/details/125796446

版权

云计算专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了虚拟机在主机故障和隔离情况下的处理策略。虚拟机的重新启动优先级设置用于控制故障后的恢复顺序，而主机隔离响应方式则涉及虚拟机的关闭和重启选择。此外，还讨论了如何通过VMCP防止“裂脑”情况，以及应对数据存储可访问性故障的策略，包括PDL和APD两种情况的处理方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、主机出现故障后的处理：

1、如果主机发生故障必须重新启动虚拟机，可以通过“虚拟机重新启动优先级”设置来控制重新启动虚拟机的顺序。

2、如果主机发生隔离，则可以通过“主机隔离相应设置”配置失去管理网络连接时vShpere HA的处理方式。

“虚拟机重新启动优先级”用于确定主机发生故障后为虚拟机分配资源的相对顺序。

首先，系统会将这些虚拟机分配到具有未预留容量（未预留于其他功能应用）的主机，首先放置优先级最高的虚拟机，然后是那些低优先级的虚拟机，直到放置了所有虚拟机或者群集资源耗尽为止（没有更多的可用群集容量可满足虚拟机的预留或内存开销）。

然后，主机将按优先级顺序重新启动分配给他的虚拟机。如果没有足够的资源，vsphere ha将等待，直到更多的未预留容量变得可用。要避免出现没有足够资源的情况，可以通过配置“接入控制”来为故障预留更多的资源。

“虚拟机重新启动优先级”可以设置4个值：

（1）已禁用：如果设置为该值，vsphere ha的虚拟机／应用程序监控功能检测到虚拟机故障时，vsphere ha将在同一台主机上重新引导该虚拟机的操作系统（而不会重新启动该虚拟机），而不会在其他主机上重启。如果主机发生故障，也不会在其他活动主机上重新启动虚拟机。

主机发生隔离时，设置该值的虚拟机不会对主机隔离做出任何响应

（2）高

（3）中（默认）

（4）低

二、出现主机隔离后的响应方式：

1、主机隔离的确认方式：当主机无法与其他主机上运行的代理通讯且无法ping其隔离地址时（默认情况下，vSphere HA 使用控制台网络的默认网关作为隔离地址；可以通过高级选项的参数设置隔离地址的个数，最多10个，das.isolationaddressX，其中 X = 0-9。通常每个管理网络应指定一个隔离地址。如果指定的地址太多，则进行隔离检测所需的时间将会较长），该主机确定其已被隔离，然后执行隔离响应。

隔离响应有2种方式：

（1）关闭虚拟机电源再重新启动虚拟机；

（2）关闭（正常关机，如果直接关电源，会存在数据丢失的可能）再重新启动虚拟机。该方式必须在虚拟机的客户机操作系统中安装Vmware Tools。如果虚拟机正常关机超过300秒（在高级选项中设置参数das.isolationshudowntimeout），则该虚拟机将被直接关闭电源。

主机隔离、分区或无法使用数据存储检测信号与主机通信时，出现“裂脑”的响应方式：

1、如果主机已从首选主机隔离或分区，或首选主机无法使用数据存储检测信号与该主机通信，首选主机无法确定该主机是否处于活动状态，因此声明其已停止运行。

2、于是，首选主机尝试重新启动故障主机（已隔离或已分区的主机）上正在运行的虚拟机。如果虚拟机仍在故障主机上运行，且该主机失去了对虚拟机存储的访问权限（丢失磁盘锁），则尝试在其他活动主机上重启故障主机上的虚拟机成功。

3、此时，故障主机和活动主机存在2个虚拟机实例，即为“裂脑”。但是，只有一个虚拟机实例能够读取或写入虚拟机的虚拟磁盘。

为了防止“裂脑”情况的发生，可以使用“（VMCP）虚拟机组件保护”来防止此类情况的发生：使用激进设置启用VMCP时，它会监控已打开电源的虚拟机的数据存储访问性，并关闭失去对其数据存储访问权限的虚拟机。（工作原理：esxi会针对已丢失磁盘锁的虚拟机生成一个问题：关于主机何时摆脱隔离状态且无法重新获取磁盘锁？Vsphere ha将自动回答（vsphere ha等待主机重新连接，并声明故障主机中的虚拟机无法获取磁盘锁）该问题，这就使已丢失磁盘锁的虚拟机实例关闭电源，只留下具有磁盘锁的实例）

如果启用VMCP，vsphere ha 可以检测到数据存储的可访问性故障，并为受影响的虚拟机提供自动恢复。当故障发生时，受影响的主机无法再访问特定数据存储的存储路径，但可以配置vsphere ha对此类故障做出响应，响应方式包括：创建事件警报或虚拟机在其他主机上重新启动。

数据存储的可访问行故障类型和相应方式：

（1）PDL(永久设备丢失)是在存储设备报告主机无法再访问数据存储时发生的不可恢复的可访问性丢失（如果不关闭虚拟机电源，此状况无法恢复）。

可以设置为故障时自动切换新主机，或者仅发布事件（警报）.

（2）APD（全部路径异常）表示暂时性或未知的可访问性丢失，或I/O处理中任何其他未识别的延迟（此类型是可以恢复的）。

可以配置出现故障时，虚拟机故障切换的延迟时间（多久后开始切换，如果在延迟时间内故障恢复，可以重置虚拟机以恢复受IO故障影响的客户机应用程序），延迟时间过后，虚拟机将保守或积极地进行重新启动。

保守方法表示可能因为主机隔离或分区，无法得知故障是否成功切换，此时不会终止虚拟机。但是如果使用积极的方法，则会终止该虚拟机。另外，如果群集中没有足够的资源做故障切换，则保守或者积极方法都不会终止虚拟机。

注意：如果禁用“主机监控”或“虚拟机重新启动优先级”设置，VMCP将无法执行虚拟机重新启动。但是，仍可监控存储健康状况，且可发布时间。