什么是IBM Power Systems的地理分散弹性?
灾难恢复和高可用性(HA)解决方案主要基于两种技术:基于集群的技术和基于虚拟机重启的技术。 群集高可用性和灾难恢复解决方案通常会部署冗余的硬件和软件组件,以在配置中的一个或多个组件发生故障时提供近乎实时的故障转移。 基于虚拟机(VM)的解决方案依靠带外监视和管理选项在基础结构中的硬件故障期间重新启动虚拟机。 IBM®Power Systems™的地理分散弹性解决方案基于虚拟机重新启动技术。
IBM Power Systems的地理分散弹性是一种灾难恢复解决方案,易于部署,并提供了在灾难恢复期间恢复生产站点虚拟机的自动化流程。 因为应用程序和服务的灾难恢复是提供业务连续性的关键组件,所以IBM地理分散弹性解决方案可帮助客户在故障期间进行自动化的灾难恢复流程。 该解决方案提供了一个简单的部署模型,该模型使用控制器系统(称为KSYS)来监视整个虚拟机环境。 该解决方案还提供了灵活的故障转移策略和存储复制管理。
您可以在IBM Developer Works Wiki文档上了解有关Power Systems的地理分散弹性的更多信息: 为什么GDR是Power Systems和FAQ 的理想DR解决方案 。
有关IBM地理分散弹性的灾难恢复即服务(DRaaS)托管配置的简要概述
在基于云的恢复模型中,两个不同的客户可以通过订阅IBM的灾难恢复管理服务产品来共享同一个IBM站点以进行恢复。 在下图中,有两个地理分散的弹性配置,每个配置用于不同的客户,并具有不同的KSYS节点(K-sys1和K-sys2)。 目前,每个客户都有自己的生产站点和远程站点。 本文提供的信息可以帮助降低远程站点硬件的客户成本。 由于远程站点硬件由服务提供商提供,因此只能为虚拟机的灾难恢复提供的服务收费。 实际上,客户将拥有自己的生产站点,但是两个客户都可以故障转移到同一IBM站点和同一主机(服务器)上。 如果两个客户都居住在同一城市,则他们可能会同时经历灾难恢复,并要求将其生产站点故障转移到IBM站点,该站点将同时为两个客户提供服务。 在这种情况下,客户不知道他们还与谁共享恢复基础结构。 服务提供商有责任为每个客户维护配置的机密性。
在基于服务产品的恢复模型中,不是由客户来处理控制器节点,而是DRaaS提供程序将处理每个客户的所有KSYS节点,并根据优先级和服务产品合同协议采取适当的措施。 虽然可以同时进行多个客户站点的故障转移,但可能有必要让客户同意根据其服务协议中的优先级与其他客户一起顺序移动其站点。 在此解决方案中,客户无需在灾难恢复或故障期间找到恢复服务器,而是将恢复服务器置于将重新启动虚拟机的服务提供商位置或数据中心。
可以使用IBM地理上的Power Power Distributed Resiliency for Power系统来实现该模型,在该系统中,客户只能在其所在位置运行自己的硬件,而恢复硬件可以在服务提供商位置使用。 服务提供商将使用适用的控制器节点(KSYS)处理所有DR操作。
图1. DRaaS的基本配置
如图1所示,生产站点系统位于客户位置,备份站点系统位于服务提供商数据中心。
针对每个客户的KSYS节点配置,其中所有客户的恢复位置都相同
让我们考虑两个KSYS节点:r7r3m116和r7r3m108。 在这里,r7r3m116有一个名为集群,cluster01和r7r3m108具有集群命名cluster02。
步骤1:创建KSYS集群
KSYS群集cluster01和cluster02分别在KSYS节点r7r3m116和r7r3m108上创建。
- ksysnode r7r3m116上的KSYS集群cluster01
- ksysnode r7r3m108上的KSYS集群cluster02
您可以使用ksysmgr命令创建KSYS集群:
ksysmgr add ksyscluster <cluster_name> ksysnodes=<node_name> sync=yes
注意:在本文中,带有黄色字体的数字是指customerA控制器节点,带有白色字体的数字是指customerB控制器节点。 它们是具有不同KSYS节点的两个不同的KSYS集群。
图2.在客户的KSYS节点上创建集群
图3.在客户B KSYS节点上创建集群
步骤2:将站点添加到KSYS集群
根据KSYS配置,将创建活动站点(称为生产站点)和备份站点(称为远程站点)。 生产站点将位于客户位置,而灾难恢复站点将位于服务提供商位置。 服务提供商将提供灾难恢复即服务。
让我们看看名customerA作为生产基地cluster01和名称customerB作为生产基地cluster02。 位于服务提供商位置的灾难恢复站点是service_provider 。
您可以使用ksysmgr命令创建站点:
ksysmgr add site <site_name> sitetype=<active|backup>
图4.为customerA配置添加站点
图5.为customerB配置添加站点
步骤3:将硬件管理控制台(HMC)添加到KSYS集群
让我们考虑vmhmc1作为生产现场HMC为customerA和vmhmc5作为生产HMC为customerB,而vmhmc6将远程站点HMC位于服务提供商的位置。 下图显示了将vmhmc1和vmhmc5添加到customerA和customerB站点。
图6.将HMC vmhmc1添加到customerA的生产站点
图7.将HMC vmhmc5添加到customerB的生产站点
现在,我们将在服务提供商数据中心的远程灾难恢复站点上添加vmhmc6 。 对于所有客户而言,此远程站点HMC都是相同的,并且当客户生产环境出现故障时,可用于处理虚拟机。 该HMC将由提供此服务的服务提供商维护,以在灾难恢复期间处理客户虚拟机。 该图显示了在service_provider站点上添加的vmhmc6 。 该HMC将被添加到两个KSYS群集上。
使用以下命令添加HMC:
ksysmgr add hmc <name> hostname=<hmc_name> login=<username> password=<password> site=<sitename to which added>
图8.将service_provider站点上的vmhmc6添加到r7r3m116上的KSYS节点
图9.将service_provider站点上的vmhmc6添加到r7r3m108上的KSYS节点
步骤4:将主机添加到KSYS集群
让我们考虑在图6所示为生产主机KSYS集群cluster01,如图7所示为生产现场主机KSYS集群cluster02 vmhmc5的主机的Raichu vmhmc1的主机pbrazos。 而远程站点主机将是snorlax ,它将在服务提供商站点上。 下vmhmc6主机卡比兽将在服务提供商的数据中心和谁已经注册了该服务为客户提供生产现场的虚拟机灾难恢复过程中会为它服务。
使用以下命令添加主机:
ksysmgr add host <hostname> site=<site_name to which its hmc belongs> uuid=<uuid of cec>
图10.将生产主机和远程主机添加到cluster01
图11.将生产主机和远程主机添加到cluster02
步骤5:将主机从生产站点与远程站点配对
对于cluster01生产主机,pbrazos将配对卡比兽 ,并为cluster02生产主机的Raichu将与卡比兽配对。 恢复主机snorlax将位于服务提供商数据中心。 在这种情况下,每当生产站点发生灾难恢复时,与生产主机关联的所有虚拟机都将在服务提供商维护的远程站点灾难恢复主机上重新启动。
使用以下命令来配对主机:
ksysmgr pair host <active_site_host> pair=<backup_site_host>
图12.对于cluster01,生产主机pbrazos与远程主机snorlax配对
图13.对于cluster02,生产主机raichu与远程主机snorlax配对
步骤6:添加用于处理磁盘复制的存储代理
处理磁盘复制状态需要添加存储代理。 磁盘复制状态将用于引导从本地存储复制到远程存储的操作系统映像。 让我们考虑customerA和salocal_B存储代理salocal_A为customerB本地存储和sarmeote作为两个customerA 上 ,而CustomerB远程存储,并在服务提供商的位置。
使用以下命令添加存储代理:
ksysmgr add storage_agent <name> login=<username> password=<password> site=<sitename_associated> serialnumber=<storage_no> storagetype=<type_of_storage> ip=<ip_of_storage>
图14. KSYS集群的存储代理详细信息
现在已针对KSYS准备好配置,并且customerA和customerB已注册到服务提供商。 因此, pbrazos和raichu主机下的虚拟机将由服务提供商在灾难恢复中进行处理,如果生产站点上发生任何故障,则将在服务提供商主机snorlax上重新启动所有虚拟机,它们将充当服务远程主机。
图15.要在customerA的主机pbrazos下处理的虚拟机
图16.要在customerB的主机snorlax下处理的虚拟机
步骤7:执行KSYS配置发现
在KSYS节点上完成配置之后,两个群集可以并行进行发现,但是不会同时为两个客户并行进行验证。 对于KSYS节点“ r7r3m116”上的cluster01,站点客户A是生产站点。 而对于KSYS节点“ r7r3m108”上的cluster02,站点客户 B是生产站点。 因为发现总是在生产(活动)站点上,所以没有冲突的机会。 因此,发现可以在两个KSYS节点上同时运行。
在两个KSYS节点上完成发现之后,检查是否创建了磁盘组和磁盘对。 以下是在活动(生产)站点上执行发现的命令。 下图显示了每个KSYS节点的磁盘组详细信息和发现执行的详细信息。
查找站点的命令:
ksysmgr discover site <active_site_name>
查询磁盘组的命令:
ksysmgr query disk_group
查询磁盘对的命令:
ksysmgr query disk_pair
图17. cluster01和cluster02的磁盘组详细信息
注意 :发现完成后,还请使用symcg list命令验证是否在相应的存储代理上创建了组合组。
步骤8:在两个KSYS节点上进行验证
通常,将对远程站点进行验证,以确认生产站点虚拟机是否能够在远程站点上重新启动。 因此,请确保不会同时对每个KSYS群集执行验证,因为对远程站点执行了验证,这对于两个客户而言都是相同的。 不应有任何冲突。 本文演示了使用cluster01 KSYS集群在r7r3m116 KSYS节点上进行的验证 。 这也验证在服务提供商位置卡比兽远程站点主机可以重新启动pbrazos生产主机的虚拟机。 在验证cluster01之后 ,用户或管理员可以在具有KSYS集群cluster02的KSYS节点r7r3m108上运行verify命令。 它还将在同一远程站点主机( snorlax )上验证虚拟机是否能够在生产主机raichu上重新启动。
使用以下命令来验证站点:
ksysmgr verify site <active_site_name>
图18.在customerA位置对cluster01进行的验证
图19.在customerB位置对cluster02进行的验证
对于计划的移动,在移动虚拟机之前,请确保在验证VM状态之后将其设置为READY_TO_MOVE状态。 下图显示了生产主机pbrazos和raichu的虚拟机的状态。 检查状态的命令是ksysmgr query vm。
图20.验证后的虚拟机状态
如下所述,可以为每个KSYS系统更改自动发现和验证时间。 为了避免发现和验证过程发生冲突,这是必需的,因为同一站点将用作customerA和customerB的远程站点。 下面给出了修改自动发现时间的命令。
(0) root @ r7r3m116: /
# ksysmgr modify system -?
ksysmgr modify system
[auto_discovery_time=<hh:mm>]
hh - hour: 00 to 23
mm - minute: 00 to 59
[lose_vios_redundancy=<yes | no>]
[auto_reverse_mirror=<yes | no>]
[notification_level=<low | medium | high | disable>]
[dup_event_processing=<yes | no>]
[replication_type=<async | sync> sites=<A,B>]
modify => ch*, sets
system => sys*
步骤9:在灾难或故障通知上移动虚拟机
一旦虚拟机处于READY_TO_MOVE状态,请确保在灾难或故障期间可以在远程站点上重新启动虚拟机。 检测到故障时,KSYS将通知服务提供商移动虚拟机。 收到通知后,服务提供商将启动移动。 这里的移动也将针对不同时间的每个KSYS集群。 无法将虚拟机从活动站点并行移动到备份站点,因为两个KSYS群集中的远程站点主机都相同。 仅可以移动基于服务提供期间签订的合同或协议的那些客户虚拟机。
在本文中,我们演示了如何将具有生产主机作为prazbos的KSYS群集cluster01的虚拟机移动到远程或备份站点。 启动移动后, pbrazos主机的所有虚拟机将在服务提供商主机snorlax上重新启动。 由于这是计划中的迁移,因此将自动完成客户站点上VM的清理。 在完成cluster01的移动之后,将启动cluster02的移动。 您可以使用以下命令移动站点:
ksysmgr move site from=<active site name> to=<backup site name>
图21.从customerA站点启动到服务提供商站点的移动
图22.从customerB站点启动到服务提供商的转移
下图显示, customerA和customerB的所有虚拟机现在都在远程站点(位于服务提供商位置)重新启动。 在此情况下,如果发生并发灾难或故障,VM的移动可以由服务提供商根据客户与服务提供商之间达成的协议来启动。
图23.服务提供商主机snorlax能够为客户重启虚拟机
纠正生产站点配置后,客户可以要求服务提供商将虚拟机移回实际站点。 反过来,这将为客户节省额外硬件的成本。
对于自动发现和验证,系统时间应以这样的方式保存,即所有客户控制器节点都不能同时执行任何操作。 因此,就需求而言,最好保持系统时间。
结论
本文简要介绍了Power Systems的IBM地理分散弹性作为云灾难恢复管理模型的使用,并向客户提供了服务。 使用此解决方案,客户无需购买用于灾难恢复的硬件。 灾难恢复代理服务提供商可以处理此问题。
翻译自: https://www.ibm.com/developerworks/aix/library/au-aix-draas-offering/index.html