Vmware Vsphere HA

最新推荐文章于 2025-04-04 00:15:00 发布

keith0820

最新推荐文章于 2025-04-04 00:15:00 发布

阅读量2.5k

点赞数

文章标签： vmware vsphere HA

本文链接：https://blog.csdn.net/keith0820/article/details/88415385

版权

vSphere HA通过管理网络和存储心跳检测主机故障，分为停止运行、网络隔离和网络分区三种类型。当管理网络故障时，会使用数据存储心跳判断主机状态。接入控制策略包括主机故障数、预留资源百分比和指定故障切换主机，用于确保资源在主机故障时的可用性。创建HA群集时，需满足许可、主机数量、静态IP等要求，并配置网络和资源策略以确保高可用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里写自定义目录标题

1 应用层高可用性：如实现mysql、oracle数据库应用程序的储群集，主要是判断mysql、oracle应用程序是否停止运行。
2 操作系统高可用性：如windows的故障转移群集（windows failover clustering WFC）。
3 虚拟化层的高可用性：如vsphere high availability(HA)和vsphere fault tolerance(FT)。
4 物理层的高可用性：如：多网络适配器、SAN等。
vSphere HA 和 Fault Tolerance（FT）功能分别通过提供中断快速恢复和连续可用性来最小化或消除非计划停机时间。
使用 vSphere，企业可以轻松提高为所有应用程序提供的基准级别，并且以更低成本和更简单的操作来实现更高级别的可用性。使用vSphere，你可以：
a 独立于硬件、操作系统和应用程序提供更高可用性。
b 减少常见维护操作的计划停机时间。
c 在出现故障时提供自动恢复。
一、vSphere HA 提供快速中断恢复
vSphere HA 利用配置为群集的多台 ESXi 主机，为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性。
vSphere HA 通过以下方式保护应用程序可用性：
1 通过在群集内的其他主机上重新启动虚拟机，防止服务器故障。
2 通过持续监控虚拟机(通过vmware tools实现主机向虚拟机发送检测信号）并在检测到故障时对其进行重新设置，防止应用程序故障。
与其他群集解决方案不同，vSphere HA 提供基础架构并使用该基础架构保护所有工作负载：
a 无需在应用程序或虚拟机内安装特殊软件。所有工作负载均受 vSphere HA 保护。配置 vSphere HA 之后，不需要执行操作即可保护新虚拟机。它们会自动受到保护。（需在开机状态下才受保护）
b 可以将 vSphere HA 与 vSphere Distributed Resource Scheduler (DRS即负载均衡) 结合使用以防止出现故障，以及在群集内的主机之间提供负载平衡。
与传统的故障切换解决方案相比，vSphere HA 具有多个优势：
最小化设置
设置 vSphere HA 群集之后，群集内的所有虚拟机无需额外配置即可获得故障切换支持。
减少了硬件成本和设置
虚拟机可充当应用程序的移动容器，可在主机之间移动。管理员会避免在多台计算机上进行重复配置。使用 vSphere HA 时，必须拥有足够的资源来对要通过 vSphere HA 保护的主机数进行故障切换。但是，vCenter Server 系统会自动管理资源并配置群集。
提高了应用程序的可用性
虚拟机内运行的任何应用程序的可用性变得更高。虚拟机可以从硬件故障中恢复，通过监控和响应 VMwareTools 检测信号并重新启动未响应的虚拟机，可防止客户机操作系统崩溃。
DRS和vMotion 集成
如果主机发生了故障，并且在其他主机上重新启动了虚拟机，则 DRS 会提出迁移建议或迁移虚拟机以平衡资源分配。
vSphere HA 群集允许 ESXi 主机集合作为一个组协同工作，这些主机为虚拟机提供的可用性级别比 ESXi 主机单独提供的级别要高。
群集中的主机均会受到监控，如果发生故障，故障主机上的虚拟机将在备用主机上重新启动。
创建 vSphere HA 群集时，你可以选择使用单个主机作为首选主机（master)以与 vCenter Server 通信并监控其他主机、从属主机(slave)及其虚拟机的状况。
如果为群集启用了 vSphere HA，则所有活动主机（未处于待机或维护模式的主机或未断开连接的主机）都将参与选举以选择群集的首选主机。挂载最多数量的数据存储的主机在选举中具有优势。每个群集只存在一台首选主机，其他所有主机都是从属主机。如果首选主机出现故障、关机或从群集中移除，则会进行新的选举。
群集中的首选主机具有很多职责：
1 ）监控从属主机的状况。如果从属主机发生故障或无法访问，首选主机将确定需要重新启动的虚拟机。
（监视的ESXi从主机宕机后，首选主机将决定将其身上运行的虚拟己重新运行在其他从主机上）
2 ）监控所有受保护虚拟机的电源状况。如果有一台虚拟机出现故障，首选主机可确保重新启动该虚拟机。使用本地放置引擎，首选主机还可确定执行重新启动的位置。
3 ）首选主机管理群集主机和受保护的虚拟机列表并对添加或删除cluster内部的主机进行管理即首选主机维护着群集内的清单。
4 ）首选主机管理被保护的虚拟机清单，在用户每次发起开关机操作时，更新这个清单。vcenter server会要求保护或不保护某些虚拟机。即当虚拟机打开电源，则该虚拟机要受保护，一旦主机出现故障就会在其他主机上重新启动虚拟机。当虚拟机关闭电源，就没有必要再保护它了。
5 ）首选主机缓存cluster的配置，master主机通知和提醒slave主机，cluster配置的修改。
6 ）master主机发送心跳信息给slave主机，让slave主机知道master的存在。如果slave主机接收不到心跳信息，则重新选举出新的首选主机。
7 ）master报告状态信息给vcenter,vcenter正常情况只与master主机通信。
首选主机执行的功能之一是虚拟机保护。虚拟机受保护时，vSphere HA 可保证在其出现故障后尝试重新打开电源。首选主机在观察到虚拟机的电源状况由关闭电源变为打开电源时，会致力于保护虚拟机。如果发生故障切换，首选主机必须重新启动所负责的受保护的虚拟机。该职责已分配给在包含虚拟机配置文件的数据存储上以独占方式锁定系统定义文件的首选主机。
群集中从主机的职责：
1 ）slave主机监视本地运行的虚拟机的状态，把这些虚拟机运行状态的显著变化发给master主机。
2 ）slave主机监视master主机的健康状态，如果master主机出现故障，slave主机参与master的选举。
3 ）slave运用vSphere HA 接入控制vSphere HA特性，这些特性不需要master的协调。这些特性包括VM Health Monitoring。
查看master和slave的状态：

主机故障类型和检测：
vSphere HA 群集的首选主机负责检测从属主机的故障。根据检测到的故障类型，在主机上运行的虚拟机可能需要进行故障切换。
在 vSphere HA 群集中，检测三种类型的主机故障：
1 ）主机停止运行（即发生故障）。
2 ）主机与网络隔离。
3 ）主机失去与首选主机的网络连接。
vSphere HA使用管理网络和存储设备来联系。当master通过管理网络联系不到slave时，master就会使用存储网络（heartbeat datastores）来检查slave是否存活。
首选主机监控群集中从属主机是通过交换网络检测信号来完成，此通信通过管理网络来完成。当首选主机不能通过管理网络（如首选主机或从属主机的网络接口出故障）从从属主机接收这些检测信号时，它会在声明该主机出现故障之前检查主机活跃度。首选主机执行的活跃度检查是要确定从属主机是否在与数据存储（即存储网络）交换检测信号。如果此从属主机与数据存储交换检测信号，则首选主机会假定它处于某个网络分区或网络隔离中，因此会继续监控该主机及其虚拟机。
网络分区：一个或多个slave通过管理网络联系不到master，即使它们的网络连接没有问题，这种情况下，vSphere HA能够了使用存储网络来检测分离的主机（上面的slaves)是否存活以及否要保护它们里面的虚拟机。
网络隔离：一个或多个slave丢失了所有的管理网络连接，这样的slave既不能联系到master也不能联系到其他ESXi hosts。这种情况下，slave主机通过存储网络来通知master，它已经是隔离状态。
注意：如果你确保网络基础结构具有足够的冗余度且至少有一个网络路径始终可用，则主机网络隔离应该在极少数情况下才出现。
在 vSphere HA 群集发生管理网络故障时，该群集中的部分主机可能无法通过管理网络与其他主机进行通信。一个群集中可能会出现多个分区。
已分区的群集会导致虚拟机保护和群集管理功能降级
1 ）虚拟机保护。vCenter Server 允许虚拟机打开电源，但仅当虚拟机与负责它的首选主机在相同的分区中运行时，才会对其进行保护。
2 ）群集管理。vCenter Server 只能与群集中的部分主机进行通信，且只能连接到一台首选主机。因此，只有在解决分区之后，配置中影响 vSphere HA 的更改才能生效。此故障可能会导致其中一个分区在旧配置下操作，而另一个分区使用新的设置
总结：当 vSphere HA 群集中的首选主机无法通过管理网络与从属主机通信时，首选主机将使用数据存储检测信号来确定从属主机是否出现故障，是否位于网络分区中，或者是否与网络隔离。如果从属主机已停止数据存储检测信号，则认为该从属主机出现故障，并且其虚拟机已在别处重新启动。
　　vCenter Server 使用 vSphere HA 主机状况报告主机是首选主机还是从属主机。如果已启用"HA 状况"列，则会在 vSphere Client 中主机的摘要选项卡上和群集或数据中心的"主机列表"视图中报告此状况。HA 状况"正在运行 (master)"表示主机作为 vSphere HA 首选主机。"已连接 (slave)"状况表示主机作为 vSphere HA从属主机。
注意:如果断开主机与群集之间的连接，则所有向该主机注册的虚拟机均不受 vSphere HA 保护。
　　vCenter Server 使用接入控制来确保群集内具有足够的资源，以便提供故障切换保护。
1、"群集允许的主机故障数目"接入控制策略：
使用"群集允许的主机故障数目"接入控制策略，vSphere HA 允许指定数目的主机出现故障，同时可以确保群集内留有足够的资源来对这些主机上的虚拟机进行故障切换。
使用"群集允许的主机故障数目"策略，vSphere HA 以下列方式执行接入控制：
1 、插槽大小计算：
插槽大小由两个组件（CPU 和内存）组成。
a .vSphere HA 计算 CPU 组件的方法是先获取每台已打开电源虚拟机的 CPU 预留，然后再选择最大值。如果没有为虚拟机指定 CPU 预留，则系统会为其分配一个默认值 32 MHz。
b .vSphere HA 计算内存组件的方法是先获取每台已打开电源虚拟机的内存预留和内存开销，然后再选择最大值。内存预留没有默认值。
2、使用插槽数目计算当前故障切换容量：
计算出插槽大小后，vSphere HA 会确定每台主机中可用于虚拟机的 CPU 和内存资源。通过使用 vSphere Client 直接连接到主机，然后导航至主机的资源选项卡，可以找到由 vSphere HA 使用的主机资源数据。然后，即可确定每台主机可以支持的最大插槽数目。为确定此数目，请用主机的 CPU 资源数除以插槽大小的CPU 组件，然后将结果化整。对主机的内存资源数进行同样的计算。然后，比较这两个数字，较小的那个数字即为主机可以支持的插槽数。
通过确定可以发生故障并仍然有足够插槽满足所有已打开电源虚拟机要求的主机的数目（从最大值开始）来计算当前故障切换容量。
附录：高级运行时信息
如果选择"群集允许的主机故障数目"接入控制策略，高级运行时信息链接则会在 vSphere Client 中群集摘要选项卡上的 vSphere HA 区域中显示。单击此链接以显示有关群集的下列信息：
a 插槽大小。
b 群集内的插槽总数。
c 已使用的插槽数。分配给已打开电源的虚拟机的插槽数目。如果已使用高级选项定义插槽大小的上限，则此数目可以大于已打开电源的虚拟机的数目。这是因为有些虚拟机会占用多个插槽。
d 可用插槽数。可用于打开群集内其他虚拟机的电源的插槽数量。vSphere HA 保留故障切换所需的插槽数量。剩余的插槽可用于打开新虚拟机电源。
e 故障切换插槽数。除已使用的插槽和可用插槽之外的插槽总数。
f 群集中已打开电源虚拟机的总数。
g 群集中的主机总数。
h 群集中的正常主机总数。处于连接状态、未进入维护模式而且没有 vSphere HA 错误的主机数目。
示例：使用"群集允许的主机故障数目"策略的接入控制
示例中展示了使用此接入控制策略计算和使用插槽大小的方式。对群集进行如下假设：
1 ）群集包括三台主机，每台主机上可用的 CPU 和内存资源数各不相同。第一台主机 (H1) 的可用 CPU 资源和可用内存分别为 9 GHz 和 9 GB，第二台主机 (H2) 为 9 GHz 和 6 GB，而第三台主机 (H3) 则为 6 GHz和 6 GB。
2 ）群集内存在五个已打开电源的虚拟机，其 CPU 和内存要求各不相同。VM1 所需的 CPU 资源和内存分别为 2 GHz 和 1 GB，VM2 为 2 GHz 和 1 GB，VM3 为 1 GHz 和 2 GB，VM4 为 1 GHz 和 1 GB，VM5 则为 1 GHz 和 1 GB。
3 ）"群集允许的主机故障数目"设置为 1。

1 ）比较虚拟机的 CPU 和内存要求，然后选择最大值，从而计算出插槽大小。
最大 CPU 要求（由 VM1 和 VM2 共享）为 2 GHz，而最大内存要求（针对 VM3）为 2 GB。根据上述情况，插槽大小为 2 GHz CPU 和 2 GB 内存。
2 ）由此可确定每台主机可以支持的最大插槽数目。
H1 可以支持四个插槽。H2 可以支持三个插槽（取 9GHz/2GHz 和 6GB/2GB 中较小的一个），H3 也可以支持三个插槽。
3 ）计算出当前故障切换容量。
最大的主机是 H1，如果它发生故障，群集内还有六个插槽，足够供所有五个已打开电源的虚拟机使用。如果 H1 和 H2 都发生故障，群集内将仅剩下三个插槽，这是不够用的。因此，当前故障切换容量为 1。
群集内可用插槽的数目为 1（H2 和 H3 上的六个插槽减去五个已使用的插槽）。
建议最好不使用"群集允许的主机故障数目"策略的接入控制，因为如果群集内部的主机硬件性能不一时，就不好确定故障数目了。除非群集内部的主机硬件性能一致时可以使用此策略。
2、“预留的群集资源的百分比"接入控

最低0.47元/天解锁文章