【摘要】云原生应用深入到企业各个业务场景,云原生正在走向分布式化,跨云跨域统一协同治理,保证一致应用体验,这些新的需求日益凸显。而容灾是确保服务高可用的保障,但即使应用部署在云上,也无法避免市政方面的故障,因此需要做好相应的容灾方案。本文将介绍跨云容灾技术的基本概念和原理,深入探讨UCS在跨云容灾场景下的能力,最后通过跨云容灾切换场景的演示让您体验UCS跨云容灾解决方案的强大功能和操作简便性。
文章目录
-
- 一 、跨云容灾技术的概念与原理
- 二、UCS跨云多活容灾方案介绍
-
- 1. 应用跨云多活的关键技术
- 2. 流量层多活:流量统一接入管理
- 3. 流量层多活:全域应用流量治理
- 4. 应用层多活:跨云统一部署管理、统一监控运维
- 5. 应用层多活:云原生容器跨云统一调度,优化资源使用
- 6. 应用层多活:利用SDK实现应用的访问数据自动切换
- 7. 数据层多活:跨云数据多活同步,支持自由倒换
- 8. 基础设施层多活:跨云、跨地域集群统一接入、全生命周期管理
- 9. 基础设施层多活:云原生应用和数据一致性灾备、跨云一键迁移
- 10. 应用多活容灾架构:以 UCS+MAS+DRS 为核心的全栈多活容灾能力
- 11. 应用容灾典型架构一:多云多活,数据库手动切换,实现低成本的业务高可靠
- 12. 应用容灾典型架构二:应用跨云多活数据库主备全流程故障自动切换
- 13. 跨云多活:ROI最优解
- 三、UCS应用跨云多活部署场景演示
- 四、总结
一 、跨云容灾技术的概念与原理
1. 多云、混合云部署已成为企业的普遍需求
根据调查报告显示:
-
92%的被调查者采用了多云策略。
-
82%的受访者同时使用公有云+私有云。
-
当前平均每个调查者使用2.6 个公有云和2.7 个私有云。
-
同时在额外验证1.1个公有云和2.2个私有云。
由此可见,大量用户在使用多云,多云战略也愈加明显。
多云方案的价值
这么多年的实践验证,多云方案的价值可总结为:
-
优化资本支出。
-
增加资源透明。
-
提高服务质量。
-
提供更高可用性。
-
快速响应灵活敏捷。
-
快速构建差异功能。
-
避免供应商锁定。
-
业务在云间冗余。
2. 影响IT系统的灾难类型
从统计中图中也看出,不同的故障类型所造成的损失和发生的频率都不一样,还有些故障类型在不同区域中出现。根据统计显示:
- 97%的局部故障会导致企业对外业务运行中断。
- 3%的全局故障引起企业数据丢失,可能导致企业消亡。
3. 业界主流容灾方案
没有一套容灾方案可以适用于所有场景,我们需要结合实际业务发展趋势、业务系统的特征以及能够投入多少资源成本等方面综合评估,最终选出最适合的容灾架构方案。
上图为目前四个主流容灾方案的对比。
-
业界趋势:以离线冷备容灾为基础,逐渐从传统主备容灾向双活、多活容灾方向演进。
-
目标追求:高可用性\持久性、RTO\RPO\ROI最优化、资源可扩展性、数据同步时效性&一致性、容灾演练自动化。
这里先普及一下容灾能力的两个评价指标:RPO和RTO。
RTO(Recovery Time Objective)
RTO是指灾难发生后,从IT系统崩溃导致业务停顿开始,到IT系统完全恢复、业务恢复运营为止的这段时间长度,即从出现故障到故障恢复能接受的最大时间。RTO用于衡量业务从停顿到恢复的所需时间。系统越重要,要求 RTO 越小。
RPO(Recovery Point Objective)
IT系统崩溃后,可以恢复到某个历史时间点,从历史时间点到灾难发生的时间点的这段时间长度就称为RPO。RPO用于衡量业务恢复所允许丢失的数据量。系统越重要,要求 RPO 越小。如果做数据备份,RPO越小意味着数据的备份频率更高,比如一般的系统可能一天备份一次,非常重要的系统可能一小时备份一次;如果做数据同步,RPO越小意味着要求数据同步链路的可靠性更高或延迟更低,对整个生产环境和网络的压力越大,需要的成本也更高。
从上图可以直观看出,RPO是 “备份时间点” 到 “IT系统出现故障” 的时间长度,RTO是指 “IT系统出现故障” 到 “IT系统恢复正常” 的时间长度。
在RPO的这段时间内,存在一部分实际数据的丢失,所以一般认为RPO越小,丢失的数据量就越小。在RPO+RTO的这段时间内,本来有预期的业务数据增长,但由于IT系统故障需要时间修复,这部分的预期增长就损失掉了。可见RTO+RPO越小,对业务营收的损失也就越小。因此,越重要的业务越需要保证RPO和RTO趋近于0,当然所需要的投入也就越大。RPO和RPO也成为衡量灾难恢复的最核心指标。
数据冷备
-
RPO/RTO/可用性:分钟/小时&天级。
-
目标:应对现网业务数据恶意删除、误删除、损坏,丢失场景。
-
方案:硬件存储、S3\OBS等离线冷备。
-
优缺点:方案简单、业务透明、提升数据持久性能力;不足:恢复时效性极差。
主备容灾 (温备)
-
RPO/RTO/可用性:分钟/小时级/99.9%。
-
目标:应对主站灾难时,将流量切换至备站。
-
方案:业务主备对等部署,数据单向异步同步,主站承载100%流量。
-
优缺点:方案简单、业务改动少;不足:恢复时效性差、可恢复性及数据一致性风险大、资源可扩展性差。
同城双活
-
RPO/RTO/可用性:0/秒级/99.99%。
-
目标:应对同城单AZ级故障双AZ各承担50%流量。
-
方案:业务SET单元化、数据实时同步&强一致性保障等。
-
优缺点:业务同城双活容灾;不足:业务需改造、资源可展性差数据库需支持双AZ强一致能力。
异地多活
-
RPO/RTO/可用性:秒级/分钟级/99.995%。
-
目标:应对区域性灾难,各Region等比均摊流量。
-
方案:业务SET单元化、DRC数据异步同步&最终一致性保障等。
-
优缺点:业务异地多活容灾,兼顾同城双活+主备能力、资源可扩展性优;不足:业务需改造、数据同步能力要求高。
4. 容灾建设:寻找成本与业务影响的平衡点
传统的自建容灾方案复杂成本高
-
复杂度高
涉及服务器、网络、存储等各种系统。
涉及多厂商、异构环