系统Hotfix的时候,我们误删除了......

老革命也会遇到新问题!虽然我在公司给同事讲了不少关于系统部署的培训,也讲过不少项目管理的风险意识问题,并且将很多发生在身边的故事当成案例培训大家,虽然我也经历了不少的不是实战工作,但是上周四的一次系统部署,还是让我着实吓出一身冷汗!

博文《报喜不报忧造就了信息不对称,让我们面对项目风险无法及时做出反应》当中谈及了系统O,经过上周一的资源协调后,上周一和上周二的处理,情况已经被控制,还需要观察一段时间,才能认定是否完全解决问题。

但是系统O在上周三发现了新的问题,出现了内存泄漏(Memory Leak)的情况,上周四一天,我们还没有完全定位出问题的所在,但是有了重点的怀疑对象,虽然还不能定量证明就是该点导致了系统内存泄漏,鉴于上周三四,系统O基本上每3~5小时,内存耗尽,需要重新启动服务器才能投入服务,好在系统有Cluster支撑,不会造成系统中断服务。

因此上周四和项目组讨论后,决定将怀疑的功能下线,进行一次Hotfix部署。根据讨论,本次Hotfix只是下线一个功能,不是复杂的工作,我们计划晚上7点开始,8点结束,收队好好休息,周五再战!

正是这种轻视的心态,我在同事L开始部署的时候还一起检查,当同事部署得差不多的时候,我离开了一会,去看了其他项目组,等到我回到的时候,同事L告诉了我一个惊人的消息:部署完毕后,整理垃圾文件的时候,我们误删除了一些文件,刚和同事联系,说无法恢复被删除的文件!

当然如果我们的系统跑在Windows或者Linux上,我们还可以找垃圾箱恢复文件,但是我们第一不是在XWindow而是在命令行上使用rm删除文件;第二,我们的OS是AIX5.3。怎么办?

  1. 我们第一时间,找公司的内源和外援,心存侥幸,看是否有办法可以恢复;同事W、F和WL也在路上赶过来支援;
  2. 与此同时,我们自己查看被误删除的文件,了解误操作的影响面,看是否有其他处理措施;

很快我们就得到反馈,AIX误删除没有办法恢复,只能看是否有系统备份可以恢复。同时,我们又发现误删除了部署在AIX上的Weblogic目录下的Domain目录下的bin文件夹、deployment文件夹等,还好config的关键配置信息没有被删除,事情没有去到特别坏的情况,不需要重新部署整个OS或者Weblogic,只需要重新建立一个Domain,从新建的Domain中复制一些文件,并且将应用重新部署则可。

经过了4个小时,我们终于完成了整个恢复和部署工作,原定的1小时变成了4小时的工作!这个教训很深刻,更加印证了同事ccc在以往培训中提到的部署经验

  1. 一个同事进行部署,一个同事进行复核检查,避免出现错误;
  2. 规范部署环境,在部署完毕后,应当控制权限,设置关键内容的只读权限;

有了以上的改进内容,就应该吸收到CMMi的执行Check List中!这个故事提醒我们管理者,时刻不要掉以轻心,风险意识必须补位,即便是我这样的“老革命”在部署,也必须有人检查我!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值