是什么引起数据中心机房事故频发，是天灾还是人祸？

最新推荐文章于 2024-09-28 22:36:54 发布

数据中心运维管理

最新推荐文章于 2024-09-28 22:36:54 发布

阅读量1.2k

点赞数

前言：

数据中心机房的安全是网络正常运行的前提，它已经成为了人们生活的一部分，数据中心机房一旦发生故障将给企业以及人们带来极大的损失和不便，轻者造成机房设备受损，降低使用寿命；重者造成设备损坏和信息丢失，带来严重甚至无法挽回的经济损失，数据中心安全“事故”频频发生，到底是天灾，还是人祸！下面对数据中心机房进行事故分析，解析引起数据中心事故的原因。

先是一铲子引发支付宝瘫痪，携程无法服务，接着IDC被雷劈中，准确的说是云服务提供商青云qingcloud的IDC机房被雷劈中了……这一系列的故障，既有天灾又有人祸，非常值得我们警醒地看待数据中心安全及灾备能力。故障突然发生的一刻，运维人员是否真的能在最短时间内有效地完成故障处理，系统是否真的能如预案中快速恢复，这些都是对数据中心故障处理能力的实际考量。

数据中心宕机原因分析：

网上有各种说法，有说是数据库数据和备份数据被物理删除的，也有说是各个节点的业务代码被删除现在重新在部署，也有说是误操作，导致业务不可用，还有说是黑客攻击甚至是内部员工恶意破坏的。

（1）黑客攻击和内部员工破坏的说法，这个说法能满足一些围观者猎奇的心理，因此也传播的比较快。但理性分析，可能性也不大。黑客讲究的是潜伏和隐蔽，做这种事等于是在做自杀性攻击。而内部员工也不太可能，我还是相信携程的运维人员的操守和职业素养，在刑法的威慑下，除非像“法航飞行员撞山”那种极个别案列，正常情况下不太可能出现人为恶意的可能性。

（2）最早传出来的“数据库物理删除”，其实这个提法就很不专业，应该是第一个传播者，试图强调问题之严重和恢复之困难，所以用了一个普通电脑用户比较熟悉的“物理删除”的概念。实际上，任何一个网站的数据库，都分为本地高可用备份、异地热备、磁带冷备三道防线，相应的数据库管理员、操作系统管理员、存储管理员三者的权限是分离的，磁带备份的数据甚至是保存在银行的地下金库中的。从理论上而言，很难有一个人能把所有的备份数据都删除，更不用说这个绘声绘色的物理删除了。

（3）从现象上看，确实是携程的应用程序和数据库都被删除。我分析，最大的可能还是运维人员在正常的批量操作时出现了误操作。我猜测的版本是：携程网被“乌云”曝光了一个安全漏洞，漏洞涉及到了大部分应用服务器和数据库服务器;运维人员在使用pssh这样的批量操作执行修复漏洞的脚本时，无意中写错了删除命令的对象，发生了无差别的全局删除，所有的应用服务器和数据库服务器都受到了影响，这个段子在运维圈子中作为笑话流传了很多年，没想到居然真的有这样一天。

导致数据中心机房事故发生的到底是天灾还是人祸：

1、“天灾”

对机房而言，最大的天灾莫过于：火灾、地震、雷击等天然灾害——导致数据中心事故，比如雷击，会产生强大的冲击电流，打到设备上，就会引起设备器件短路，产生瞬间的高压，使电路急剧生温，轻微的可引起设备短路故障，严重的还能引起火灾，对于这些自然灾害，数据中心也有很多的技术手段可以最大程度上避免灾害的发生，针对每一种自然灾害数据中心都需要加以重视，才能躲避开这些自然灾害。

比如增加机柜和机房地面的固定螺丝，安装避雷针，增加放火报警系统和防火器材，当出现这些自然灾害时，减少对数据中心的冲击。

2、“人祸”

人为故障导致的数据中心故障占数据中心的故障中的70%，其中也可以分为有意的和无意的。有意的是指明知道一些操作会造成数据中心故障，仍执意去做的，这些人往往希望通过造成数据中心运行瘫痪，而达到不可告人的目的。

常见的有黑客、情报人员、商业机密小偷等等，他们攻击的对象往往是数据中心里的数据，通过造成数据中心故障来达到窃取或损坏数据的目的。无意的是指本意并不想破坏数据中心，但是由于自己的技术积累经验不够或者疏忽，自己的操作引发了数据中心故障，这种故障占到了人为故障的80%以上。

数据中心是一个复杂庞大的系统，不可能一个人面面俱到都精通，当接触到自己不熟悉或不了解的地方，操作往往引发意想不到的结果，因此加强对人的管理尤为重要。在对数据中心做任何调整时，都要从全局考虑，集中最优秀的技术人员，将人为操作风险降低。这类事故往往也很容易留下证据记录，给事故分析带来方便，几乎所有的数据中心都有门禁系统、视频监控系统，任何人的出入都有记录，很容易查到。

有不少的数据中心提供远程的访问，那么所有的访问操作在数据中心后台数据中心都有记录，访问者对数据中心业务调整、修改配置、甚至重起设备等任何操作都会记录在案，只要数据中心不是全面的毁灭，这些记录都会在后台的数据库中查到，通过记录的时间和访问的人就可以查明人为事故的原因，数据中心也有各种各样的监控手段和历史信息记录，这些技术为数据中心的稳定运行提供了保障，也是不断推动数据中心完善的重要举措。

如同飞机上的黑匣子，数据中心也有自己的一套故障定位信息获取方案，这些信息可以在一定程度上有效还原故障时数据中心的完貌，通过对这些数据分析，不仅可以找到故障原因，还可以根据这些故障对数据中心进行优化，避免发生二次故障。

3、设备故障

除了以上的天灾人为导致数据中心故障，大型的数据中心拥有数千台设备很普遍，这些电子设备难免运行中出现故障，一旦出现故障，就需要对设备进行分析，很多现场操作人员并不具备分析问题的能力，为了恢复业务，只能重起设备，或者将业务切割到别的备份设备上。当故障设备上没有业务或者已经重起了，其上很多时时记录都会冲掉，这样给故障分析带来难度。

很多时候故障的表现也并非集中在某一台设备上，心急的操作人员可能将所有设备全部重启或将业务全部割离，如果设备能提供详细的历史记录，那么对于故障分析非常有帮助。数据中心不怕出故障，怕的是出了故障后找不到原因，这相当于给数据中心埋了一个定时炸弹。其实在很多高端设备上已经增加了一些可以记录历史信息的模块，比如采用NVRAM、EEPROM等非忆失性器件时时记录设备运行的各种参数，当设备发生故障后，哪怕是设备发生了断电，这些器件依然可以正常运行，记录下来设备运行的各种参数，这些数据往往是故障后分析参考的最重要数据来源。

当数据中心出现故障后，有的设备可以提供故障时设备运行的各种数据参数，非常具有说服力，有时也是证明自己设备没有问题的重要信息，而一旦在故障后，一些设备没有可分析的数据记录，根本分不清是不是自己的问题，这样的设备很快就会被数据中心所弃用。如果通过数据分析是自己设备的问题，那么设备商依然可以根据这些数据去优化设备设计，从而避免这类故障的再次发生，让设备运行更加稳定。

避免数据中心大型事故发生的对策：

应对数据中心大型事故,运维人员在其中发挥着至关重要的作用，从初期的数据中心规划设计，机房建成的验收测试、机房运营过程中对于机房的定期检测，对于突发状况的预案等等，无一不考验数据中心运维人员对于数据中心大型事故的应对及避免出现重型事故。