一、 概述
混合云容灾服务(HDR)是阿里云提供的低成本高性能业务连续性保障的服务,可以为企业内部关键应用,互联网应用,乃至Hadoop大数据集群提供容灾服务。
其中的连续复制型(CDR)基于磁盘数据连续复制技术,可以为企业关键业务提供低至秒级RPO,分钟级RTO的容灾服务,极大缩短业务宕机时间,减少数据丢失损失。其一键演练,全链路监控,自动化运维等功能更是解决了传统容灾服务操作难,验证难,维护难的问题,极大提高了容灾系统的可用性,释放了容灾系统的价值。
CDR近期推出了针对阿里云上环境的跨地域和跨可用区容灾方案,可以为云上应用的业务连续性,等保合规要求等提供保障。本操作指南介绍的是一个典型的阿里云上应用跨地域整站异地容灾场景的操作方法。
二、 场景介绍
某客户已经在阿里云上杭州地域通过双AZ部署应用,做到了多可用区双活,因为业务连续指标以及合规要求,需要在异地做应用容灾。核心要求是
- 生产在杭州地域,要求容灾地域物理距离大,选择北京地域
- 5分钟以内RPO,15分钟以内RTO。
- 整站容灾,所有服务器在异地拉起后IP不变,避免应用配置过多修改,影响RTO
- 一键演练,运维人员需要每3个月在不影响生产环境的情况下,做一次操作演练
容灾架构概略图如下
![920515577fdebdf9129aa0dc6e5b0d11.png](https://img-blog.csdnimg.cn/img_convert/920515577fdebdf9129aa0dc6e5b0d11.png)
- 全站的ECS服务器通过HDR-CDR实现秒级RPO的容灾复制
- RDS数据库基于RDS跨地域复制实现数据库异地容灾
- 北京地域VPC网络配置保持与杭州地域一致 (仅多加一个vSwitch用于接收复制数据),北京地域容灾站点所有ECS仅运行复影最小规格复影ECS,只有在容灾演练和故障切换时按需拉起全规格ECS,接管业务
- 整体容灾演练,切换,回切操作都有HDR容灾控制台来操作
本文将介绍整个容灾操作的全流程,主要包括以下内容。整体环境做了较大简化(简化应用,未包含RDS),便于关注操作流程
- 环境准备
- 启动容灾复制
- 容灾演练
- 故障切换
- 故障恢复
三、 环境准备
生产站点(杭州地域)
1.我们创建VPC(官网服务VPC),以及网段为192.168.1.0/24的虚拟交换机(生产vSwitch)
![91f5056c1cf23dc2e1a44dea74e65d70.png](https://img-blog.csdnimg.cn/img_convert/91f5056c1cf23dc2e1a44dea74e65d70.png)
2.在它的虚拟交换机(生产vSwitch)下面部署了3台ECS。1台windows ECS-IISSvr,2台Centos 分别为:oraclesvr,midwaresvr。(ECS的数