异地灾备中心距离要求_【每周方案】异地容灾系统方案设计与分析

最新推荐文章于 2023-12-14 09:55:14 发布

weixin_39911998

最新推荐文章于 2023-12-14 09:55:14 发布

阅读量2.2k

点赞数

文章标签：异地灾备中心距离要求

本文链接：https://blog.csdn.net/weixin_39911998/article/details/111586428

版权

第 1 章容灾技术规范

作为风险防范系统，灾备系统建设本身在总体规划、方案选择和投产实施后的管理运行，以及真正面对灾难时的切换操作等方面也存在着潜在的风险。

计算机信息系统实现数据大集、应用大集中后，系统的运行安全成为风险控制的焦点。目前，已经有多系统开始或准备进行灾备系统的建设，灾备系统建设的目标是减灾容灾，使计算机信息系统和数据能够最大限度地防范和化解各种意外和灾害所带来的风险。然而，与大多数工程一样，灾备系统建设本身在总体规划、方案选择和投产实施后的管理运行，以及真正面对灾难时的切换操作等方面也存在着潜在的风险。

可以说，风险防范系统本身也存在风险点，需要小心应对。

灾备系统建设中所涉及的潜在风险大致可分为技术风险、管理风险和投资风险，其中尤以技术选择风险最大，技术方案选择优越，可以规避一定的管理风险和投资风险。而这三者也存在内在的相互关联，不同灾备级别对应的建设投资规模、所采用的技术以及实施和管理的复杂度也不同，应考虑保护计算机系统的原有投资并提高灾备系统建设投资的利用率。

1.1 容灾的总体规划

真正的容灾是数据被不间断的一致性访问！

在灾难备份的世界里，是有等级观念的，级别不同，灾备系统所采用的技术和达到的功能是不同的，在系统建设资金投入方面的差距也很巨大。所以，对用户来说，明确灾备系统建设的总体规划十分必要。

1.1.1 技术指标 RPO、RTO

衡量容灾技术的两个技术指标 RPO、RTO 。

RPO(Recovery Point Objective): 以数据为出发点，主要指的是业务系统所能容忍的数据丢失量。及在发生灾难，容灾系统接替原生产系统运行时，容灾系统与原生产中心不一致的数据量。RPO 是反映恢复数据完整性的指标，在同步数据复制方式下，RPO 等于数据传输时延的时间；在异步数据复制方式下，RPO 基本为异步传输数据排队的时间。在实际应用中，考虑到数据传输因素，业务数据库与容灾备份数据库的一致性(SCN)是不相同的，RPO 表示业务数据与容灾备份数据的 SCN 的时间差。发生灾难后，启动容灾系统完成数据恢复，RPO 就是新恢复业务系统的数据损失量。

RTO(Recovery Time Objective):以应用为出发点，即应用的恢复时间目标，主要指的是所能容忍的应用停止服务的最长时间，也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。是反映业务恢复及时性的指标，表示业务从中断到恢复正常所需的时间。RTO 值越小，代表容灾系统的数据恢复能力越强。各种容灾解决方案的 RTO 有较大差别，基于光通道技术的同步数据复制，配合异地备用的业务系统和跨业务中心与备份中心的高可用管理，这种容灾解决方案具有最小的 RTO。容灾系统为获得最小的 RTO，需要投入大量资金。

不同容灾方案的 RTO 和 RPO 是不相同的。

1.1.2 国际标准 SHARE 78

要建设容灾系统，就必须提出相应的设计指标，以此作为衡量和选择容灾解决方案的参数。目前，国际上通用的容灾系统的评审标准为 SHARE 78，主要包括以下内容。

●备份/恢复的范围

●灾难恢复计划的状态

●业务中心与容灾中心之间的距离

●业务中心与容灾中心之间如何连接

●数据是怎样在两个中心之间传送的

●允许有多少数据丢失

●保证更新的数据在容灾中心被更新

●容灾中心可以开始容灾进程的能力

SHARE 78 是建立容灾系统的一种评审标准。建立容灾系统的最终目的，是为了在灾难发生后能够以最快速度恢复数据服务，主要体现在 RTO Objective)和 RPO 上。 SHARE 78, M028 报告中定义的灾备的七个级别和与其对应的数据丢失量与恢复时间情况详见下表：

1.1.2.1 Tier 0

Tier 0 - 无异地数据备份(No off-site Data)

Tier 0 被定义为没有信息存储的需求，没有建立备份硬件平台的需求，也没有发展应急计划的需求，数据仅在本地进行备份恢复，没有数据送往异地。这种方式是最为低成本的灾难备份解决方案，但事实上这种灾难备份并没有真正灾难备份的能力，因为它的数据并没有被送往远离本地的地方，而数据的恢复也仅是利用本地的记录。

1.1.2.2 Tier 1

Tier 1- PTAM 车辆转送方式( Pickup Truck Access Method)

作为 Tier 1 的灾难备份方案需要设计一个应急方案，能够备份所需要的信息并将它存储在异地，然后根据灾难备份的具体需求，有选择地建立备份平台，但事先并不提供数据处理的硬件平台。

PTAM 是一种用于许多中心备份的标准方式，数据在完成写操作之后，将会被送到远离本地的地方，同时具备有数据恢复的程序。在灾难发生后，一整套系统和应用安装动作需要在一台未启动的计算机上重新完成。系统和数据将被恢复并重新与网络相连。这种灾难备份方案相对来说成本较低(仅仅需要传输工具的消耗以及存储设备的消耗)。但同时有难于管理的问题，即很难知道什么样的数据在什么样的地方。一旦系统可以工作，标准的做法是首先恢复关键应用，其余的应用根据需要恢复。这样的情况下，恢复是可能的，但需要一定的时间，同时依赖于什么时候硬件平台能够被提供准备好。

1.1.2.3 Tier 2

Tier 2 - PTAM 卡车转送方式+热备份中心 (PTAM+Hot Site)

Tier 2 相当于是 Tier 1 再加上具有热备份能力中心的灾难备份。热备份中心拥有足够的硬件和网络设备去支持关键应用的安装需求。对于十分关键的应用，在灾难发生的同时，必须在异地有正运行着的硬件平台提供支持。这种灾难备份的方式依赖于用 PTAM 的方法去将日常数据放在异地存储，当灾难发生的时候，数据再被移动到一个热备份的中心。虽然移动数据到一个热备份中心增加了成本，但却明显降低了灾难备份的时间。

1.1.2.4 Tier 3

Tier 3 - 电子传送(Electronic Vaulting)

Tier 3 是在 Tier 2 的基础上用电子链路取代了车辆进行数据传送的灾难备份。接收方的硬件平台必须与生产中心物理地相分离，在灾难发生后，存储的数据用于灾难备份。由于热备份中心要保持持续运行，因此增加了成本。但确实是消除了运送工具的需要，提高了灾难备份的速度。

1.1.2.5 Tier 4

Tier 4 - 活动状态的备份中心 (Active Secondary Site)

Tier 4 这种灾难备份要求两个中心同时处于活动状态并管理彼此的备份数据，允许备份行动在任何一个方向发生。接收方硬件平台必须保证与另一方平台物理地相分离，在这种情况下，工作负载可以在两个中心之间被分担，两个中心之间之间彼此备份。在两个中心之间，彼此的在线关键数据的拷贝不停地相互传送着。在灾难发生时，需要的关键数据通过网络可迅速恢复，通过网络的切换，关键应用的恢复时间也可降低到了小时级。

1.1.2.6 Tier 5

Tier 5 - 两中心两阶段确认 (Two-Site Two-Phase Commit)

Tier 5 是在 Tier 4 的基础上在镜像状态上管理着被选择的数据 (根据单一 commit 范围，在本地和远程数据库中同时更新着数据)，也就是说，在更新请求被认为是满意之前，Tier 5 需要生产中心与备份中心的数据都被更新。我们可以想象这样一种情景，数据在两个中心之间相互映像，由远程 two-phase commit 来同步，因为关键应用使用了双重在线存储，所以在灾难发生时，仅仅传送中的数据被丢失，恢复的时间被降低到了小时级。

1.1.2.7 Tier 6

Tier 6 - 零数据丢失 (Zero Data Loss)

Tier 6 可以实现零数据丢失率，同时保证数据立即自动地被传输到备份中心。 Tier 6 被认为是灾难备份的最高的级别，在本地和远程的所有数据被更新的同时，利用了双重在线存储和完全的网络切换能力。Tier 6 是灾难备份中最昂贵的方式，也是速度最快的恢复方式，恢复的时间