论应急预案的重要性

640?wx_fmt=gif

应急预案,顾名思义就是在发生突发安全事件时,能够起到应急处理的解决方案。还记得我刚参加工作时,领导就跟我说过这样一句话,平时的运维工作做得再好,也抵不上在发生突发事件情况下的应急处理能力,我们有必要将应急演练作为一个员工的考核指标。这句话虽然是半开玩笑的一句话,却是一位多年运维工作者的经验结晶。

640?wx_fmt=jpeg

可能有人觉得这句话似乎夸大其词,想必做过运维的人都知道,尤其是一线处理岗,每天面对的都是一些简单的、重复的、看似毫无技术含量的工作,所以就有人提出来要提高数据中心建设的标准化、可视化、自动化和智能化的运维水准,这的确可以解放运维工作的生产力。可谁曾想过,当运维过程中发生一些突发事件时,尤其需要一些手工操作时,这时候的自动化工具,或是智能机器人等它们能够解决这些没有事先按既定程序指令去应急吗?亦或是要求他们对故障原因、事件影响范围以及可能引发的二次事故进行分析吗?答案显然是否定的,我举一个运维过程中可能不太重视的一个环节。

大家都知道UPS系统在数据中心供配电系统的重要性,除了安排专人对其运行工况进行维护,也有很完善的监控系统对其运行工况实时监控,还要求服务商每月对其进行健康检查,发现一些潜在的威胁,但一些小的部件可能在我们日常运维过程被忽视。为了防止UPS系统过高温运行,影响其使用寿命,其内部会安装温度传感器实时监测本机运行。这个温度传感器是UPS系统中很小的一个部件,小的很容易被忽视,我所就职的数据中心就曾发生过类似的情况。当天值班人员在监控中发现了该台UPS系统的高温报警,误以为是配电机房工作环境温度过高,就现场对本机做了消音处理,开启了配电间的排风系统(当时已过了立夏,室外温度比较高)。可过了一段时间,UPS系统持续报高温预警,本地上却无其他异常,转而远程求助服务商,服务商给出的建议是变更期间更换温度传感器(其实,服务商不总是靠谱的,他们不曾做过运维,也就不能够深刻体会到安全生产事故给数据中心造成的影响)。机组运行一段时间后,监控系统报警升级,电池电压过低。这个时候会不会觉得很奇怪,怎么又跟电池有关系了。由于服务商推脱,故障未及时得到解决,机组持续“高温”运行,UPS本地启动了自保护功能,断开了整流器转电池旁路供电,等温度降下来后又转UPS主回路工作,这两种工况反复,引发了次生故障,将故障影响扩大化。试想一下,如果此时出现市电波动,又或是值班人员粗心不在关注此类报警,下游负载就会出现失电的威胁,从小的方面说,电池的放电次数有限,且深度放电会严重影响其使用寿命(电池成本昂贵),从大的方面说,这也可能影响数据中心的正常运营,不仅给企业带来业务上的损失,也会给企业名誉造成影响。相反,如果此类情况被反复演练过,运维值班人员就会很清楚知道该类故障的解决方案,也会很清楚地了解该类故障可能引发的次生威胁,所以此类故障在应急预案的前提下,可以有条不紊的得到完美解决。

另外,应急预案中“”字,即预习、演练之意。它要求运维人员提前熟练掌握应急流程,定期高效地组织演练培训,做好应急故障的预防预测,以及及时更新应急预案的演练内容(数据中心在运营过程,会逐渐优化和改造原有系统架构),做到对突发事件的稳妥处理,成竹在胸。

640?wx_fmt=png

资料免费送(点击链接下载)

史上最全,数据中心机房标准及规范汇总(下载)

数据中心运维管理 | 资料汇总(2017.7.2版本)                                                    

加入运维管理VIP群(点击链接查看)

《数据中心运维管理》VIP技术交流群会员招募说明

加入学习群扫描以下二维码或者添加微信:

wang2017bj

640?wx_fmt=jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值