基于CloudEndure的新一代云上一键灾备解决方案与最佳实践

亚马逊云开发者

于 2021-06-05 20:23:14 发布

阅读量646

点赞数

文章标签：数据库运维大数据人工智能 java

本文链接：https://blog.csdn.net/awschina/article/details/118161235

版权

背景介绍 – 传统灾备的三个维度

在现代企业的IT运营中，灾备的价值正在与日俱增。客户数据中心故障、服务器硬件损坏，网络攻击，或者地震火灾等事件不仅会引起客户的产线停摆、业务中断，还会造成数据丢失、影响客户商业声誉；对于涉及公共事业服务的企业或者上市公司，如果对灾难事件处理不善甚至还有可能造成社会事件。

为了保障关键业务的持续运营并满足与业务部门协定的服务等级协议，很多客户都需要建立灾备系统或者跨地域的容灾中心，但传统的灾备系统需要投入一套昂贵的重复 IT 资源，包括软件、计算、存储、网络等。异地容灾中心还需要单独建立容灾机房，为了保障容灾机房在灾难的情况下能顺利接管业务，还需要配备相应的技术人员保障容灾机房的运行。此外，灾备使用的技术栈与灾备系统范围也与灾难恢复难度、效率、实施和运维成本密切相关。

如果我们将以上三个灾备的维度及其关系加以归纳，将得到下图：

这三个维度关系紧密且互相影响，在传统灾备方案中，客户常常不得不在其中进行取舍：

1.比如客户要获得灾备切换的高效与演练不中断复制的灾备技术方案，则需要投入可观的成本购买成对的具备此功能的中高端存储解决方案。

2.如果客户需要保障SLA并且不打算投入太多资金在灾备构建上，则必然需要对灾备系统的范围进行激进的压缩限制并舍弃某些提升灾备深度的高阶技术。

3.类似的，对成本与灾备覆盖度的追求需要建立在对SLA进行妥协的基础上。

步入云时代后，灾备的方式将获得全面的革新；充分利用云上诸如按用量计费，上至计算下至存储的全栈弹性能力，全套的自动化辅助服务等特性，将成为衔接三个维度至关重要的“拼图”，为灾备领域开启全新的篇章。

云上灾备的关键要素与技术指引

使用Amazon EBS诠释云上灾备的守夜灯模式

亚马逊云科技所推崇的云上守夜灯模式的主旨是在大部分时间使用最低成本的资源承载灾备复制，而仅在需要开启灾备系统时利用云上的弹性特性将系统快速恢复至提供完全生产能力的资源配置状态。

为了进行更深入的解读，我们不妨回顾一下灾备端的数据在整体灾备中所处的角色，其通常由以下两个角色组成，这在ISV数据库厂商的复制方案里尤为常见：

持续接收从生产传输过来的数据增量
在演练/切换时承载灾备系统的数据访问

同一时间同一数据载体只能担任其中一个角色，如下图所示

在这种传统复制场景中，由于目标端平时只承载磁盘写入，利用Amazon EBS 可以在复制“目标系统”阶段配置最低满足写入性能要求的磁盘类型 (如st1/sc1)，而在演练开始(2)以后使用 EBS 弹性类型修改特性动态改变磁盘类型至高性能类型磁盘(如gp3)，以达到弹性降本的要求。

不止于此，利用Amazon EBS 的快照特性在灾备演练时将两个角色剥离开来，从而在保留弹性成本降低的前提下实现不中断的演练特性。

而克隆出来的系统在灾备演练完成后可以进行完全的清理，客户只需为其演练期间的成本付费。

Amazon CloudEndure 产品便是这个思想的最好诠释者。

云上灾备的明星产品CloudEndure

CloudEndure Disaster Recovery 可以通过快速而可靠地将物理机、虚拟机和基于云的主机恢复到 Amazon云区域，能最大限度地帮助客户缩短停机时间并减少业务中断损失，同时显著降低灾难恢复基础设施的成本。CloudEndure Disaster Recovery 会将您的机器（包括操作系统、系统状态配置、数据库、应用程序和文件）持续复制到目标 Amazon 账户和指定区域的低成本暂存区。当发生灾难时，您可以指示 CloudEndure Disaster Recovery 在数分钟内自动启动数千台处于完全预置状态的机器，只有在实际的容灾切换或演习中，您才需要为启动的预置工作负载付费。

CloudEndure Disaster Recovery支持多种容灾需求：

-本地数据中心到Amazon区域的容灾

-其他公有云到Amazon区域的容灾

-Amazon不同区域之间的容灾

CloudEndure Disaster Recovery方案的主要特点：

1.操作简单，自动化程度高，降低了容灾的复杂度

2.广泛的适用性，可以支持物理主机、虚机和云主机，以及各类企业软件和操作系统

3.支持秒级的恢复点目标 (RPO)和分钟级恢复时间目标 (RTO)，降低业务中断的损失

4.云上基础设施高可靠，确保容灾切换时能及时接管业务运行

5.数据复制时占用云端的资源少，云上资源按需使用，有效降低容灾方案的成本

6.演练不中断复制

CloudEndure Disaster Recovery方案架构：

CloudEndure 提供了强大与丰富的灾备恢复能力，符合其云上灾备明星产品的称号。但是如果需要完美衔接我们在上面提到的三个维度，往往在实际整体灾备方案中，我们还需要引入更多的技术方案。如果把灾备比喻为一场电影，那么除了主角，我们还需要配角，导演以及整个剧组的支持。

拥抱多元，追求极致

在某些场景下，相对于CloudEndure，存在更加有利于降低成本的复制方案：

1.比如源端磁盘体量巨大而实际使用率很小，那么使用CloudEndure并不是成本最优的，使用基于文件系统的复制或者数据库复制是成本更优的选择。

2.如果数据库磁盘写入量巨大，使用CloudEndure将对承载复制流量的带宽产生巨大考验，而此时引入数据库复制技术能够有效降低写放大率，缓解整体带宽需求。

对于某些对SLA要求不高的灾备场景，选择备份复制也将是一个能够帮助降低总体成本的有效手段。

不过我们坚定地认为，最具竞争力的云上灾备解决方案必然是以CloudEndure产品为核心的灾备框架基础上引入多元的灾备技术，其结果是找到一个在满足客户SLA要求与总成本支出之间寻求平衡的最优解。

当然随着更多不同复制技术的引入，无疑将加深灾备方案的深度这一维度，并对灾备效率产生影响。深度与效率的博弈其根本原因在于“人工”这一因素，这体现在使用“人工”来执行大量繁复的流程。然而，即使是一个训练有素的运维工程师在独自面对规模庞大、技术方案多样的灾备场景时也会感到束手无策，而构建一个能够支持如此体量灾备场景的团队对运维成本却并不友好（请参考灾备的三个维度)。与此同时，深度带来的演练难度与运维成本也不可避免地成为了企业进行周期性大规模灾备演练的阻力，如果方案本身不具备不中断复制的演练能力，无疑将更增强这一阻力。

更多元的技术/更广的灾备范围→增加的灾备深度→更低的效率→更少的演练→更多的不确定性，这不是一个良性的演进。墨菲定律告诉我们，不好的事情总会发生，其于灾备，往往意味着：没有经受检验的灾备恢复流程会在真实灾备切换发生时将所有问题暴露出来。而我们知道，比没有灾备更糟的情况是拥有一个无法在关键时刻成功运转的灾备系统。

在电影拍摄过程中，导演与编剧的重要性不亚于主角，同样的，在云上灾备场景中，我们拥有多种多样的云原生产品可以帮助我们对灾备流程进行自动化编排，如Amazon Step Functions、Amazon Systems Manager、Amazon Lambda等，借助这些服务，客户将有机会实现灾备演练/切换的自动化。