【vsphere高可用】主机出现故障或隔离后的处理

本文详细介绍了虚拟机在主机故障和隔离情况下的处理策略。虚拟机的重新启动优先级设置用于控制故障后的恢复顺序,而主机隔离响应方式则涉及虚拟机的关闭和重启选择。此外,还讨论了如何通过VMCP防止“裂脑”情况,以及应对数据存储可访问性故障的策略,包括PDL和APD两种情况的处理方法。
摘要由CSDN通过智能技术生成

一、主机出现故障后的处理:

1、如果主机发生故障必须重新启动虚拟机,可以通过“虚拟机重新启动优先级”设置来控制重新启动虚拟机的顺序。

2、如果主机发生隔离,则可以通过“主机隔离相应设置”配置失去管理网络连接时vShpere HA的处理方式。

“虚拟机重新启动优先级”用于确定主机发生故障后为虚拟机分配资源的相对顺序。

首先,系统会将这些虚拟机分配到具有未预留容量(未预留于其他功能应用)的主机,首先放置优先级最高的虚拟机,然后是那些低优先级的虚拟机,直到放置了所有虚拟机或者群集资源耗尽为止(没有更多的可用群集容量可满足虚拟机的预留或内存开销)。

然后,主机将按优先级顺序重新启动分配给他的虚拟机。如果没有足够的资源,vsphere ha将等待,直到更多的未预留容量变得可用。要避免出现没有足够资源的情况,可以通过配置“接入控制”来为故障预留更多的资源。

“虚拟机重新启动优先级”可以设置4个值:

(1)已禁用:如果设置为该值,vsphere ha的虚拟机/应用程序监控功能检测到虚拟机故障时,vsphere ha将在同一台主机上重新引导该虚拟机的操作系统(而不会重新启动该虚拟机),而不会在其他主机上重启。如果主机发生故障,也不会在其他活动主机上重新启动虚拟机。

主机发生隔离时,设置该值的虚拟机不会对主机隔离做出任何响应

(2)高

(3)中(默认)

(4)低

二、出现主机隔离后的响应方式:

1、主机隔离的确认方式:当主机无法与其他主机上运行的代理通讯且无法ping其隔离地址时(默认情况下,vSphere HA 使用控制台网络的默认网关作为隔离地址;可以通过高级选项的参数设置隔离地址的个数,最多10个,das.isolationaddressX,其中 X = 0-9。通常每个管理网络应指定一个隔离地址。如果指定的地址太多,则进行隔离检测所需的时间将会较长),该主机确定其已被隔离,然后执行隔离响应。

隔离响应有2种方式:

(1)关闭虚拟机电源再重新启动虚拟机;

(2)关闭(正常关机,如果直接关电源,会存在数据丢失的可能)再重新启动虚拟机。该方式必须在虚拟机的客户机操作系统中安装Vmware Tools。如果虚拟机正常关机超过300秒(在高级选项中设置参数das.isolationshudowntimeout),则该虚拟机将被直接关闭电源。

主机隔离、分区或无法使用数据存储检测信号与主机通信时,出现“裂脑”的响应方式:

1、如果主机已从首选主机隔离或分区,或首选主机无法使用数据存储检测信号与该主机通信,首选主机无法确定该主机是否处于活动状态,因此声明其已停止运行。

2、于是,首选主机尝试重新启动故障主机(已隔离或已分区的主机)上正在运行的虚拟机。如果虚拟机仍在故障主机上运行,且该主机失去了对虚拟机存储的访问权限(丢失磁盘锁),则尝试在其他活动主机上重启故障主机上的虚拟机成功。

3、此时,故障主机和活动主机存在2个虚拟机实例,即为“裂脑”。但是,只有一个虚拟机实例能够读取或写入虚拟机的虚拟磁盘。

为了防止“裂脑”情况的发生,可以使用“(VMCP)虚拟机组件保护”来防止此类情况的发生:使用激进设置启用VMCP时,它会监控已打开电源的虚拟机的数据存储访问性,并关闭失去对其数据存储访问权限的虚拟机。(工作原理:esxi会针对已丢失磁盘锁的虚拟机生成一个问题:关于主机何时摆脱隔离状态且无法重新获取磁盘锁?Vsphere ha将自动回答(vsphere ha等待主机重新连接,并声明故障主机中的虚拟机无法获取磁盘锁)该问题,这就使已丢失磁盘锁的虚拟机实例关闭电源,只留下具有磁盘锁的实例)

如果启用VMCP,vsphere ha 可以检测到数据存储的可访问性故障,并为受影响的虚拟机提供自动恢复。当故障发生时,受影响的主机无法再访问特定数据存储的存储路径,但可以配置vsphere ha对此类故障做出响应,响应方式包括:创建事件警报或虚拟机在其他主机上重新启动。

数据存储的可访问行故障类型和相应方式:

1PDL(永久设备丢失)是在存储设备报告主机无法再访问数据存储时发生的不可恢复的可访问性丢失(如果不关闭虚拟机电源,此状况无法恢复)。

可以设置为故障时自动切换新主机,或者仅发布事件(警报).

2APD(全部路径异常)表示暂时性或未知的可访问性丢失,或I/O处理中任何其他未识别的延迟(此类型是可以恢复的)。

可以配置出现故障时,虚拟机故障切换的延迟时间(多久后开始切换,如果在延迟时间内故障恢复,可以重置虚拟机以恢复受IO故障影响的客户机应用程序),延迟时间过后,虚拟机将保守或积极地进行重新启动。

保守方法表示可能因为主机隔离或分区,无法得知故障是否成功切换,此时不会终止虚拟机。但是如果使用积极的方法,则会终止该虚拟机。另外,如果群集中没有足够的资源做故障切换,则保守或者积极方法都不会终止虚拟机。

注意:如果禁用“主机监控”或“虚拟机重新启动优先级”设置,VMCP将无法执行虚拟机重新启动。但是,仍可监控存储健康状况,且可发布时间。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
vSphere 故障排除》介绍了 vCenter Server 实施及相关组件的故障排除问题和过程。 A Active Directory 24 Auto Deploy 超时错误 18 重定向问题 19 coredump 20 错误的映像 18 DHCP 地址 22 故障排除 18 TFTP 服务器 21 网络引导问题 22 无法完成引导 20 无法引导 21 映像配置文件警告 19 Auto Deploy 升级 23 C 插槽大小 35, 36 插件, 故障排除 34 超时错误, Auto Deploy 18 CHAP 身份验证 56 重复会话错误, vSphere Web Client 31 config.vpxd.das.electionWaitTimeSec 39 存储 DRS 错误 52 放置位置 53 关联性规则 52 规则违反 52 故障排除 49 建议 53 禁用 52 OVF 模板 52 删除关联性规则 52 无法应用建议 53 已禁用 49 存储 DRS 建议, 故障排除 53 存储故障排除 55 存储设备, 显示问题 55 存储适配器, 故障排除 62 D 导出许可证使用情况 80 登录, vSphere Web Client 31 Disk.SchedNumReqOutstanding 60 Distributed Switch, 无法移除主机 68 低吞吐量, Windows 虚拟机 73 地址已在使用中, Jetty 服务器 30 DNS 31 队列深度 58, 59 F 防火墙 基于网络 33 Windows 32 Fault Tolerance 故障排除 7–9 日志记录 10 Fault Tolerance 故障排除 7 非 ASCII 字符 61 分布式端口组, 虚拟机无法通信 75 flash player, 内存不足 30 ft.maxSwitchoverSeconds 8 辅助虚拟机 39, 40 G 高级设置, Disk.SchedNumReqOutstanding 60 高级运行时信息 36 功能 81, 82 gpupdate /force 命令 31 GUID 31 孤立的虚拟机, 恢复 12 过载的主机 8 故障排除 插件 34 扩展 34 链接模式 31 USB 设备 10, 11 vCenter Server 27 vCenter Server Appliance 28 vSphere Web Client 27, 29 证书 33 故障排除许可 77 故障切换, 已断开虚拟机连接 71 H HBA, 队列深度 58 合规性故障, 主机配置文件 24 红色群集 35
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值