不知道大家的朋友圈,有没被近期运维人员恶意删库事件刷屏了。这次的故障已超过36小时,仍未完全恢复。据悉,该公司的业务系统数据库(包括主备)遭遇其公司运维人员的删除,目前技术团队正在努力恢复数据中。 |
---|
目前对新用户服务已经恢复正常,但老用户数据官方预计要到2月28日才有结果。
归纳了两个比较常见的疑惑:
1. 为什么数据恢复会花这么长时
这次故障极有可能是直接做了rm -rf或者fdisk这样的基本不可逆转文件删除操作,业务系统数据库(包括主备)一起被极端删除。再加上数据库备份没有备份或者仅有全量备份,无增量备份。导致没有可快速恢复的备份,数据恢复耗时超长。
2. 运维人员的权限怎么会这么大?
对于绝大多数中小型企业来说,一下招很多运维/DBA,人力成本过高。目前普遍现象是,一个运维或许就可以管理整个系统,并拥有系统主机最大权限。
总而言之,运维人员权限太大,并做了极端操作,又没有好的备份机制恢复,所以造成了此次极端恶劣的故障和影响。