一次机房迁移产生的事故在面前重演,需要总结和反省这次事故的原因。
总结主要原因:
- 缺乏批判性思维
- 缺乏PlanB
- 中间过程谁裁定
缺乏批判性思维
很多时候对客户、上司交代的事情,一味的顺从。
上司交付的东西不会质疑,出现问题不愿沟通;客户交付的代码,运行有问题,不会质疑与沟通。
这个过程需要(改变思维、克服情感、关注价值、自我批判、反复练习)
缺乏PlanB
迁移机房过程中,需要配置网络,已经存在配置失败需要重新恢复的问题。但是第二次部署过程,没有让实施人员把数据库、配置、代码等备份,导致实施人员使用错误的脚本执行迁移,导致配置都被冲掉,应用服务无法启动。
应用服务启动后操作数据,误删数据,导致没有最新的数据备份文件,只能找客户要数据文件进行恢复。
中间过程谁裁定
项目涉及与硬件对接,硬件测试清单显示完成,独立的软件测试也没有问题,软件和硬件同时使用过程,出现冲突,这样的事情谁来裁定,需要引入专家成员对这些问题进行分类。