16年刚开始工作的时候,因为误操作数据库造成了线上事故。
当时进行了总结反思,现在回头再看,有了新的感悟和思考(细体为16年记录,粗体为近期更新)
-
制度问题:这是当时我忽视的一点,现在来看,恰恰是最重要的一点。是人总会犯错误,稳定性和可靠性必须建立在正确合理的制度之上,通过制度的规范发现和纠正人的错误。就误操作线上数据库这一事件而言简单的制度应该是:
- 限制开发人员对线上数据库的操作权限(理论上限制读写,初创公司考虑人力问题可以只限制写权限),由专人(DBA)负责操作
- 所有修改数据库的脚本必须经过code review 和严格的测试
-
态度问题:服务器开发必须谨慎小心,心怀敬畏,任何操作都有可能导致运营环境的问题,对于发布上线、代码合并和提交、修改数据库,必须看三遍以上,认真想一想再做下一步操作
-
心态问题:不要心急,放慢速度,把事情一件一件做好,可靠稳定是第一位
-
方法问题:做事情之前不要急于动手,要把涉及到的各个方面都考虑到, 列一下任务表,按部就班解决问题
这点做一下拓展,正确的工作方法应该按照以下步骤:- 充分了解需求
- 充分了解需求相关的信息