容灾的基本概念

容灾系统基本上指的是:当生产中心系统上的数据崩溃了,无法使用。在异地的容灾站点还有一份数据,能够使得容灾站点的系统能够继续运行。

容灾系统分为两种:

数据容灾:目前绝大部分容灾系统做的是数据容灾。简单而言,就是将生产系统上的数据通过,复制,镜像,备份/恢复等方式,在容灾站点上保留1份。这样当生产系统发生故障的情况下,确保容灾站点上论然有数据可以使用。这就是数据容灾,也是所有容灾系统的基础。

业务连续:又叫应用容灾。该容灾系统不仅包括数据容灾,还需要包括:网络设备的冗余和重定向,业务应用流程的冗余和重定向等。所以业务连续是一个工作或者业务的流程,而不仅仅是数据容灾。

注:CommVault的产品主要是做数据容灾,也就是确保数据能够正确的在容灾站点启动。如果用户需要实现业务连续,那么不仅需要数据容灾的技术,还需要在网络设备,业务流程,应用环境做一系列的改变;以符合业务连续的要求。

容灾的技术考虑

容灾实施要求的级别:

RPO的要求:(Recovery Point Object恢复点目标)灾难发生时候的丢失数据量

出现灾难的时候多长时间可以让业务继续运作

RTO的要求:(Recovery Time Object恢复时间目标)指出现灾难的时候会丢失多长时间的数据.

容灾系统的风险控制:

数据风险控制:在任何一种灾难情况下,是否能够恢复系统

复制技术风险控制:采用多种数据复制技术,确保复制不会失败

实施风险控制:实现容灾时或者后,对现有生产系统的影响

容灾系统的实施成本:

网络成本:对带宽的要求,对延时的要求

存储硬件成本:对存储设备的要求

运行维护成本:运行维护和容灾演练的成本和要求

如果用户需要最完整的数据保护方式,那么就需要6份数据(在线,本地快照,本地备份,容灾数据,异地备份和剥离数据)

如果用户需要1个健全的数据保护方式,至少需要4份数据(在线,本地备份,容灾数据,异地备份或者在线,本地备份,容灾数据,剥离数据)

如果用户需要1个灾备的数据保护方式,起码要3份数据才可以实现(在线,本地备份,异地备份)

本地/异地备份恢复是所有数据保护的基础,也是最后1道防线

快照,复制数据和异地备份数据保护的目的不同,快照是当生产数据损坏的情况下可以以最短时间来恢复系统运行,复制数据是确保灾难发生时丢失的数据量最少,而备份保护是确保在任何情况下系统都能够恢复运行

备份恢复结合最新的CDP技术[微软系统1] ,能够在实施风险和成本可控的方式,提高更好的RPO级别

快照,复制,备份这些保护技术是互相结合的,而不是谁替代谁的关系。只有按照用户的业务需求,来确定哪种技术重要。

复制技术手段

clip_image002

数据容灾技术说明

应用/数据库复制软件,主要是通过将数据库或者应用的交易日志,异步复制到容灾站点相同的数据库或者应用中,而异地的应用根据这些交易日志,通过恢复或者回滚从而实现数据容灾。

文件系统复制,通过捕获应用或者数据库在文件系统上的更改,将这些更改日志发送到异地容灾站点的服务器上。容灾站点的服务器将这些捕获的更改日志在容灾站点服务器的文件系统上回放,从而实现数据容灾。

卷复制,当数据库或者应用在软件管理的数据卷上写入数据时,卷管理软件能够自动将更改的数据块以同步或者异步的方式,发送到异地容灾服务器上。异地的容灾服务器回将这些数据块写入容灾服务器管理的数据卷中,从而实现数据容灾。

存储硬件复制,当数据库或者应用将数据写入该存储硬件缓存时,该存储硬件会将存放在Cache中的数据以同步或者异步的方式,写入异地容灾存储设备中,从而实现数据容灾。

备份恢复方式,通过备份软件将本地的应用或者数据库备份下来,然后复制到容灾中心的备份设备上。再通过备份软件,将这些备份数据恢复到容灾的应用中,从而实现数据容灾。

几种容灾技术的简单比较

 

优点

缺点

数据库复制

无需改动应用环境,不需要修改存储设备和数据迁移

对主机平台和存储硬件无限制

对带宽要求低,对硬件设备要求低

容灾数据往往是活动的,方便验证和快速恢复

只针对单一应用或者某个数据库

必须和其它方式配合,才能实现完整的数据保护

无法做到数据完全同步,往往会有几分钟的数据丢失

文件复制

无需改动应用环境,不需要修改存储设备和数据迁移

对存储硬件无限制

对带宽要求低,对硬件设备要求低

通过文件系统的快照功能,方便容灾验证和快速恢复应用

只针对特定主机上的文件系统

快照功能只针对特定应用

无法做到数据完全同步,往往有几分钟的数据丢失

卷复制

对存储硬件无限制

对应用无限制

数据丢失量可以很少,和环境因素有关

往往需要改动数据存放环境,进行大量的数据迁移

对环境要求较高,需要比较高的带宽

通过主机完成复制,性能有影响

存储硬件复制

和主机应用环境都无关,在存储底层做复制

效率最高,数据丢失量可以做到最少

需要改动数据存放方式,或者存储体系结构,需要大量的数据迁移

网络故障可能会干扰业务应用

对带宽的要求较大,实施成本很高

对硬件要求严格,大部分需要相同类型相同厂商

备份恢复

和主机应用环境都无关,备份是通用的

备份数据的复制和应用无关,网络故障不会干扰业务系统

可以将数据离线,是最后的保护手段

由于备份是时间驱动的,数据会有很大的丢失量

每次全备份数据的传送可能需要大量的带宽

数据容灾的方式

数据同步复制方式:数据同时写人本地生产系统和异地容灾系统,只有当两地的数据确认都写入成功,才能认为数据写入成功。这种方式,数据系统更加可靠,但是运行效率会降低。

数据异步复制方式:数据先写入本地生产系统磁盘上,然后在异步的传送到异地的容灾系统中。只要本地数据系统写入,就认为数据系统已经真确写入。这种方式,相对同步方式,异地的数据会是本地数据的前一段时间,可能造成数据不一致或者丢失,但运行效率较高。

数据离线复制方式:先将应用系统数据备份到本地设备,再复制或者运送到异地后,通过恢复数据系统的方式来实现数据容灾。这种方式,丢失的数据量较大;但是实现方式较简单,而且实施成本较低。

容灾整个项目周期的阶段

初始化阶段:往往需要用户进行大量的数据迁移,并且将大量的数据从生产系统复制或者同步到容灾站点;该阶段对存储性能和网络线路有较大的压力。对业务有比较大的干扰,往往需要系统宕机。

运维阶段:该阶段往往是容灾系统正常运行的阶段,用户需要注意网络故障对容灾系统的影响。

容灾演练阶段:如何确保容灾系统当灾难发生的时候,容灾站点的数据能够真确运行;所以需要用户能够实现定期的容灾演练。该阶段必须注意,容灾演练完毕后,需要用户恢复正常的运行状态。

灾难重建阶段:万一当生产数据或者容灾数据中心,发生故障的时候,需要将数据重新在数据中心重建完成。该过程类式于初始化过程。

[微软系统1]CDR技术?