《质量全面管控》读书笔记——灾难恢复与容灾测试（END）

最新推荐文章于 2020-01-20 16:40:33 发布

ZLANBL085321

最新推荐文章于 2020-01-20 16:40:33 发布

阅读量722

点赞数

分类专栏：编程知识

本文链接：https://blog.csdn.net/ZLANBL085321/article/details/80959836

版权

编程知识专栏收录该内容

39 篇文章 1 订阅

订阅专栏

一、灾难恢复
从一个软件和平台的角度讲，一切引起系统非正常停机的事件都可以称为灾难。灾难大致分为3个类型：
1）自然灾害，这是人力不可抗拒的；
2）设备故障，硬件故障、电源中断、网络故障等；
3）人为操作破坏。

灾难恢复测试就是灾难发生后，将生产平台恢复到正常运作的能力。

1、灾难恢复规范
IT行业公认最关键的衡量指标有两个：RTO和RPO。
RTO（Recovery Time Objective）：灾难发生后，从软件系统宕机导致业务停顿时开始，到软件系统恢复至可以支持各部门的运作、恢复运营时，此两点之间的时间段。
RPO（Recovery Point Objective）：指从系统和应用数据而言，要实现能够恢复到可以支持各部门业务运作，使系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一个自然日的备份数据，也可以是上一次交易的实时数据。
RTO关注点是业务恢复时间，RPO关注点是损失的数据量。

《银行业信息系统灾难恢复管理规范》中对灾难恢复建设的全流程实现给出了详细的指导意见，具备很高的可操作性，IT行业可以参考借助。
短时间中断对国家、外部机构和社会产生重大影响或影响单位关键业务并造成重大经济损失的系统：RTO（恢复时间目标）<6小时，RPO（恢复点目标）<15分钟；短时间中断会影响单位部分关键业务功能并造成较大经济损失的系统：RTO<24小时，RPO<120分钟；短时间中断会影响单位非关键业务功能并造成较大一定经济损失的系统：RTO<7天。

2、灾难恢复能力等级
等级一：基本支持
等级二：备用场地支持
等级三：电子传输和设备支持
等级四：电子传输及完整设备支持
等级五：实时数据传输及完整设备支持
等级六：数据零丢失和远程集群支持

二、容灾测试
容灾就是当各种灾难发生时，在保证生产系统的数据尽量少丢失的情况下，保持生产系统的业务不间断地运行。根据对系统的保护程度将容灾分为三部分：硬件容灾、数据容灾、业务容灾。

容错测试主要检查系统或平台的容错能力，检查软件在异常条件下自身是否具有自动恢复的措施或某种灾难性恢复的手段。容灾和容错的最大区别是，容灾必须通过系统冗余、灾难检测、系统迁移等技术来实现。

容灾测试的基本目标：
1）模拟极端错误发生，测试业务恢复功能和业务持续性流程；
2）发现平台潜在隐患，确保出线突发情况时平台能够正常运行；
3）在极端访问量的情况下，牺牲一小部分非主要业务功能或一小部分用户体验，保障整体系统的稳定及主要功能的正常运行。
4）进行容灾测试时，需要同步分析日志。

容灾测试的流程：
1）制定详细而周密的容灾测试计划和测试方案，经各方讨论确定后才可实施；
2）对业务数据进行备份，进行平台总体架构和功能流程检查，事先进行资源协调，做好人员的调配工作和支持工作；
3）容灾测试后进行灾难恢复流程的整理及改进，形成测试总结报告，为以后的容灾测试提供经验教训。

至此，本书的读书笔记已结束。