早上被微盟运维人员删库的事件刷屏了,超过36小时,仍未完全恢复,我花了点时间从通告的信息中做了一些深入地分析解读,分享给大家。
最主要目的还是想通过分析和建议,帮助大家如何能够避免这样灾难性故障。
我想大家比较关心的会是下面几个关键问题:
第一,为什么恢复时间会这么久,已经过去了36个小时,而且至今无法完全恢复?
第二,为什么一个运维人员会有这么大破坏力,让整个公司业务都瘫痪了?
第三,以上两个问题有什么好的办法解决吗?
第四,文中提到了某云厂商,这个事跟云厂商的稳定性有什么关系吗?
我们就一个个来看一下,首先我们要结合微盟的故障通告看。
第一个问题,为什么这么长时间还没恢复?
其实从公告中,我们可以看到,到目前为止,仍在在进行中的恢复动作就是做数据恢复。
所以不难推断,这次故障被破坏最严重的就是生产系统的数据库,而且一定是核心库,或许应用环境也被破坏掉了,但是影响不会像现在这么大。
那为什么数据恢复会花这么长时间呢?我大致推测有以下几个原因:
1、这个事件非常不幸,就是传说中删库跑路的操作,而且是极有可能是直接做了rm -rf或者fdisk这样的基本不可逆转文件删除操作,更极端可能是主备一起干掉了。
2、数据库备份没有做好<