机房惊魂记

这不是什么鬼片,而是发生在机房的一次事故。

因为扩容需要,去机房添加一个盘柜,然后把这些空间添加到主机,因为主机不能动态识别这些新添加的空间,所以重启主机。主机上跑的业务不能停机很久,于是重启命令敲完,准备接个显示器上去看看启动的过程,万一需要按个F1或者碰见什么故障暂停了,也好及时处理。没想到惊险一刻很快就来了。

[@more@]

显示器电源往拖线板上一插,啪啪的冒了几下火星,吓了一跳,这倒没啥,小时候刚学会玩电器的时候,被电、冒火星甚至电线烧掉都发生过,这点小故障吓不到我的。不过恐怖的是马上收到短信报警,打开一看,存储故障,抬头看了一眼存储,一片黄灯,这下知道问题严重性了,整个机柜因为刚才的火星全部短路跳闸了,导致整个机柜全部断电!

我晕死,这个机柜有存储、光纤交换机、网络交换机,马上开始检查整排的机器,确认故障影响范围,同时打电话通知电力维护人员进行检查。还好,存储是双路电源的、重要主机的网络链路和光线链路也都是双路冗余的,检查到最后,只有一个不是很重要的DATAGUARD是只有一路光纤的,这个主机的库已经宕了,因为生产库已经出现日志不能写到备库,报警已经收到了。

电力维护人员确认是一个保险跳掉了,重新打开后,一切加电,开始恢复,重启DATAGUARD的库,测试主机往这边的归档,应用正常。然后检查其他一切业务也都正常,总算问题搞定,而且幸运的是,这个机柜上跑的都是公司内部业务,停一会半会,跟兄弟们解释下也还能说的过去。如果换做对外业务的生产系统,从停电到上电,然后开始主机重启,重启库等等,没有半个小时是搞不定了,半个小时,很严重的事故了!

这个让我想起了一个比较夸张的说法,就是不要一个人去机房,万一触电了也没人知道,看来还真的不是忽悠的。

经验教训:

1、能冗余的一定要冗余。这次就是因为大部分都是有冗余,存储没宕,所以影响面还不是很大。

2、冷静,一定要冷静!

3、NOTHING IS IMPOSSIBLE!

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/25016/viewspace-1022835/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/25016/viewspace-1022835/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值