引言
只有经历过被脱库和删库的开发运维人员才是一个优秀的技术人员。
1.定义
脱库:它属于来自外部恶意攻击。
删库:它属于是来自内部开发或运维人员的bug。
2.背景
但是在项目的业务是十分复杂,在一些紧急情况下还是很难避免需要直接操作数据库进行调试。
1.只要时间跨度足够长,运维及开发人员操作数据库就肯出现疏忽的很大可能性。
2.我们开发项目的业务中还会出现各种各样的可能,包括活动漏洞数值漏洞等等,导致需要回档的运营事故并不罕见。
3.解决方案
3.1预防方案
- 只有代码能够读写数据库:在生产环境的数据库不允许直接操作,不提供并且不使用任何数据库管理工具或者命令行工具。
- 修改数据库结果要求通过有版本检查的脚本。
- 当然代码和脚本都必须通过stage环境的充分测试。
3.2 事故预案
我们在项目中更加需要的是事故预案,而不是预防方案。以达到让删库之后也可在尽量短的时间恢复:
- 保证数据库做定期备份。
对于中等规模的线上业务,我们都要求使用阿里云的RDS数据库服务,并必须启用数据库快照功能。 - 新时代用新解决方案。对于大型项目,使用一些支持秒级回滚或事物(Transaction)级回滚的数据库。
例如AWS的Aurora和PingCAP的TiDB等。 - 如果一定要使用公司项目自己维护的数据库,必须开启binlog和制作定时备份的脚本。
- 进行回滚演习。
不管使用哪个方案,演习一次删库回滚。尽量让回滚过程文档化,脚本化。确认回复方案的可行性和稳定性,不会因为时间环境改变导致恢复方案不可用。恢复时间在运营可接受的范围内。