在团队中开展故障检验平台建设
学习携程SRE稳定性风险治理框架思路,并在团队开展了故障检验平台的建设,其建设的总体原则和路径有:
- 1.验证历史故障的修复
- 2.主动设计故障场景并发起挑战
- 3.形成design for failure的文化**
1.测试覆盖常见故障场景
2.生产、测试环境少量演练
3.生产关键应用的定期演练
4.生产设定场景的随机演练
5.生产全自动化演练和验证
把上面的实践思路,同我们自身的研发管理和产品测试相结合,能得到很多的启发。
通过故障检验思路,原则,方法,实践,将系统故障扼杀在开发和测试环境,避免在客户环境出现故障,是一款软件产品是否稳定、优秀的重要保障。研发负责人需要有相关的思想和能力,去开展相关工作,携程的做法,值得深入学习。