故障快速恢复
1、 定义
故障恢复(failback)是将系统,组件,服务恢复到故障之前的组态。使用虚拟化允许故障转移操作减少对硬件的依赖。
2、指标
平均故障恢复时间:服务出现故障后到恢复正常工作时平均所需时间。
3、目标
通过全链路压测测试系统故障快速恢复的能力。
4、解决的问题
- 功能检测:通过测试故障恢复的平均耗时,了解服务的故障快速恢复能力。
- 功能诊断:根据故障快速恢复过程中的问题,诊断系统代码或功能的问题。
- 优化建议:针对故障恢复平均耗时,给出合理的优化方法。
5、方法和技术
- 回滚部署
云平台升级部署过程中,有时会遇到构建后项目启动失败的情况,如果情况紧急,那就要快速回滚代码了,可以将镜像切换至上个稳定版本部署运行。
- 数据库恢复
数据库恢复是指通过技术手段,将保存在数据库中丢失的电子数据进行抢救和恢复的技术。
应急恢复
应急恢复用于防止数据库处于不一致或不可用状态。数据库执行的事务(也称工作单元)可能被意外中断,若在作为工作单位一部分的所有更改完成和提交之前发生故障,则该数据库就会处于不一致和不可用的状态。这时,需要将该数据库转化为一致和可用的状态。
为此,需要