在曼哈顿下城区布罗德大街75号即Peer 1主机托管公司的所在地,这无疑是灾难恢复规划人员的噩梦。虽然备用发电机可以随时搬到远高于水位线的大楼18层,但是涌入大楼大堂、灌满地下室的那场风暴潮毁掉了放在那里的应急发电机燃油泵送系统。一旦浸泡在水下,系统电路不再工作。(纽约在9•11事件后实施的一项规定是,限制贮存在办公楼的燃油量)。因此,发电机开始用完供应有限的燃油后,这家公司无法获得新补充的燃油。就在几名员工设法赶到数据中心、帮助防止任何数据丢失的同时,Peer 1建议客户在数小时内有计划地关闭系统。
Peer 1不是关闭设施,而是成立了一支救援队,运送发电机所需的燃油。燃油摆放在街上(见上图),一路手递手送到17楼,也就是发电机的储油罐所在地方。储油罐及油泵可以将燃油输送到这层楼上方的发电机。Peer 1的客户(包括SquareSpace这家网站开发公司和Fog Creek Software这家在线项目管理软件供应商)为这支25个成员的救援队提供了人力,在10月30日晚直至10月31日,将燃油送到了楼上的发电机。
到10月31日午饭时间,他们终于灌满了储油罐,总算有机会休息一下,吃的午饭是靠步行经过布鲁克林大楼送过来的(由于曼哈顿街道堵塞)。Peer 1的灾难恢复方案当中既没有包括需要成立救援队,也没有包括步行送午饭。但这场飓风没有导致服务停运。
5. SUV导致的停运
2007年11月13日,Rackspace的主机托管业务和在达拉斯同一个数据中心运行的成立才不久的Mosso Cloud公司因一辆失控的SUV而停运了数小时。
这辆大型四轮驱动汽车的司机是名糖尿病患者,他当时昏倒在方向盘前。这辆车不是突然转向街道边沿,而是完全加速直行,在丁字路口没有转弯,越过路缘径直开到远处的草径上。草径起到了斜面的作用,让这辆SUV得以在空中越过一排泊着的汽车。它冲下来后又撞上了一幢大楼,这幢大楼里面正好放着Rackspace数据中心的电力变压器,结果一下了断了电。
就在切换过程连接电力公司的备用市电的时候,大楼的冷却系统停了下来。计算处理过程没有受到干扰,因为计算设备靠正是为这类突发事件而部署的应急电池继续运行。电力公司接到急救人员正从一辆一头撞到变压器设备的汽车中抢救司机这个消息后,关闭了通向该数据中心的所有电力,结果扰乱了Rackspace的备用市电,于是数据中心的工作人员为大楼的冷却器启动了重启过程。
电池电力再次启动,应急发电机立马开始运转起来,而灾难恢复方案要求这样。尽管这次事件以及电网两次停电,数据中心的处理到目前为止没有受到中断。然而,冷却系统的大型冷却器的多步骤启动过程在重启进行到一半受到了干扰,事实证明要不是进一步排查故障,不可能让一些系统重启。
Rackspace总裁Lew Moorman在事件后不久发布的博文中告诉客户:“两台冷却器没有重启,导致数据中心过热。”计算设备散发的热量足以让温度直线上升,于是Rackspace的管理人员实施了“分阶段关闭设备的方法,以免设备损坏”,客户数据因而丢失。
停电一直持续到晚上10点50分,此时事件已过去了5小时。软件即服务提供商37signals(Rackspace为这家公司提供主机托管服务)告知自己的客户:“这一连串的糟糕事件不仅击跨了我们的系统,还击跨了我们数据中心先进的备用系统。我们会竭尽全力进一步分散我们的系统,以便让将来诸如此类的任何停运事件更少发生。”除了加大失去客户的风险外,这起事件据称还让Rackspace退款350万美元,损失惨重。
6. 焊工引起的瘫痪
2015年1月9日,由于一名焊工的吹管不小心引燃了旁边的建筑材料,原准备作为亚马逊网站未来数据中心的一幢大楼发生了火灾。这场大火很快变成了维吉尼亚州阿什本一处地方的三级大火。几英里开外的地方也能见到滚滚浓烟。亚马逊发言人告诉美国广播公司新闻网驻地方办事处:这场大火造成约10万美元的损害,不过补充说“没有影响亚马逊运营的风险”,因为该数据中心还没有投入使用。
7. 太阳风暴
万一嫌火灾、洪水和四轮驱动车事故还不够闹心,总是会出现这种小概率事件:太阳风暴袭击地球大气层。太阳耀斑过后有时会出现所谓的太阳风暴,来自太阳表面的日冕物质喷射会沿着与之前的太阳耀斑同样的轨迹,远离太阳表面。
这一连串事不常发生,但是一旦发生,太阳耀斑似乎会为喷射清理出一条路线,以便高速喷射到太空。随着带电粒子接近地球大气层,它们会因高速而形成强磁性。磁场会诱导长长的导电材料,比如导电电缆。管道和电话系统提供了另外的长长导电体,能够捕捉到电荷。
这种威胁对伦敦劳埃德保险公司(Lloyds of London)来说足够严重,于是发布了一份风险评估报告:《北美电网面临的太阳风暴风险》。
据这份报道声称:“电力可靠性面临的一个严重威胁就是磁暴――太阳风暴在地球大气层的上层引起的严重干扰……它们诱导的电流会让电网系统出现过载,从而引发电压崩溃,或者更糟糕的是,损坏数量众多的价格不菲的特高压变压器。”
1989年,加拿大就遭遇了这样一起太阳风暴,电涌导致变压器损坏,结果魁北克水力发电公司的电网陷入瘫痪。据估计,1859年美国发生的一起规模较小的太阳风暴(名为卡林顿事件)让几名正在作业的报务员触电,并且导致几个电报局着火。1989年的那起事件导致东北电力协调委员会和中大西洋地区委员会的断路器和防护装备失效,几乎让成员电网出现连锁反应式崩溃。电涌损坏发电机的升压变压器后,新泽西州的一家核电厂不得不停止运行。
较晚些时候,2012年也发生过一场太阳风暴。
结束语
虽然所有这些场景让最身经百战的数据中心运营者也吓出一身冷汗,不过好消息是,本文中提到的所有企业组织都设法从任何灾难恢复方案根本预料不到的一连串事件后迅速恢复了过来。
来源:IDC圈
资料免费送(点击链接下载)
加入运维管理VIP群(点击链接查看)
扫描以下二维码加入学习群