数据丢失与灾难恢复---运维风险谈

   今天在51CTO网站上看到了一篇有趣的文章《把企业数据搞丢的七大捷径》,恰好10月31日我刚参加了在京举办的第七届中国灾难恢复行业高层论坛,所以针对数据丢失和灾难恢复这两个话题,与大家谈谈运维人员工作中面临的风险问题。

   正如这几年间我们大家所看到的,自然灾害比如地震、飓风、海啸、暴风雪或其他自然灾害可以在短时间内便将企业的数据中心和其他设施毁于一旦,所以完备的灾难恢复计划对企业来说是生死攸关的,因为关键数据的丢失将对企业是致命的打击。灾难恢复是业务连续可用性的一个重要子集,它正越来越多地受到IT高层管理者的关注和重视,同时也关系到IT业重大技术的发展,比如云的灾备和安全恢复问题。

   一、硬件故障

原文中谈到硬件故障是造成数据丢失的头号罪人;因此,对硬件故障的忽视也成为危害业务数据的首要因素。比如硬盘损坏,有人说我有RAID5,如果不幸的是你的硬盘一下坏了两块或两块以上,RAID5也不能保证你的数据不丢失;还有企业用的存储设备,一般都有A控制器和B控制器,两个控制器是冗余的,但是有一回B控制器坏了存储真的就挂了,虽然后续更换了B控制器,修复了存储,数据还是丢了一部分;还有大家用过的磁带库,NBU备份数据到磁带上,你每次发现备份都成功,可是恢复的时候你就真的会遇到恢复出来的部分文件有问题,需要多次恢复这个文件才行;很多时候双电源的服务器,你换个电源它居然也重启了;做压力测试的时候,服务器突然宕机了.............凡此种种,就不一一列举了。运维人员遇到这样的问题,真的很郁闷。硬件坏了,造成数据丢失了,可如果你没能用备份100%的恢复,那你也悲催了。DBA经常说备份重于一切,其实你还应该告诉他备份不是万能的,当然没有备份是万万不能的。

 很多企业用磁带作为备份介质,由于磁带本身具有很多先天缺陷、尤其是可靠性较低,存在一定隐患,一旦备份的数据中有一盘磁带发生物理损坏,那真的会让数据灰飞烟灭且根本无从恢复。

 SAN或者NAS存储设备是目前不错的选择,但请注意,一般企业里都是一个存储设备,有后备存储或异地灾备的并不多。而且建设后备存储和异地灾备的造价也不菲。美国网域的NetApp 存储解决方案为开放网络环境提供了无缝的存储管理,可以参考一下,但是同样也价格不菲。

二、人为失误

人为失误是造成数据丢失的第二大原因。人为失误的涵盖面很广、表现形式也多种多样,从意外删除文件记录到无视管理政策以错误方式关机或重启系统无所不包。人天生具有惰性,并且在自觉遵守政策方面常常表现出令人惊讶的堕落倾向。虽然每个人都知道信息安全管理政策与数据安全的重要性,但文件及记录的意外删除仍然不可避免。

对抗人为失误的最佳武器就是自动化与备份。在政策与流程的创建与执行之下,自动化技术最大程度避免了IT基础设施与员工之间的接触面,而备份则成为数据恢复的一个重要工具。但是数据备份也不是实现企业IT系统的高可用性的最好办法,因为通过备份来恢复通常需要靠某种形式的复制来实现。高可用性在应对硬件故障方面效果卓著,但却很难挽回由人为因素导致的逻辑错误。

运维中提倡自动化、标准化确实是非常有必要的,同样在云计算时代,自动化运维的程度会更高。硬件、网络包括系统服务都可以实现标准化和自动化,一个人就可以管理处于云端的数千甚至上万台服务器,这样大大降低了人力成本和减少了人为失误。私有云还是公共云都能实现这样标准化、自动化和高效的运维,其中的优劣就由大家自己考量吧。大家还可以参看曹亚孟的博文《云计算时代的运维职位展望》,来细细了解。

三、软件崩溃

原文中说软件崩溃是造成数据丢失的第三大原因。比如WINDOWS的蓝屏死机,大家都不会陌生吧,每位用过Windows系统的朋友或多或少都被这类意外所困扰。当然,软件崩溃的原因除了内部设计缺陷之外,也常常受到系统运行错误的拖累。

软件崩溃与人为失误类似,都是一种逻辑上的故障。比如软件在设计方面的不严谨,在开发上的赶速度,存在的BUG较多,没有经过严格测试就投入使用等,通常会在数天、数周、数月甚至数年之后才发现由此导致的信息损毁或丢失。因此,严格遵守质量管理政策和测试验收再上线,利用自动化测试和安全测评技术为数据搭建起可以信赖的防护体系非常重要,当然同时也要做好数据的备份。

四、电脑病毒

电脑病毒不仅严重威胁业务系统,同时也给企业声誉造成恶劣影响。我们需要确保业务环境中的所有设备,包括网络设备、操作系统、数据库、各种应用与存储,还有公司内的个人电脑还有各种移动终端等等,都要安装杀毒软件和做好定期查杀,连带备份服务器也要如此。通过这种方式,大家才能保证在病毒肆虐时,不会殃及自己的业务环境和办公环境。

外部的信息安全和***就不用说了,公司内部员工的办公电脑和移动终端更应引起企业安全工程师的关注。一旦内部员工的办公电脑和移动终端与业务软件运行在同一套系统平台下,无情的***必然接踵而至。因此种种造成的数据泄密和丢失,也是运维工程师面临的挑战,要避免风险必然要对信息进行可控和审计。

五、面对灾难的心理和心态

  我们很难把自然灾害算作数据丢失的主要原因。每年由灾难事件引发的数据丢失仅占全部故障中的百分之一到百分之三。或许一年之内,企业出现重大数据丢失和需要灾难恢复的场景,也不会出现一次,但这并不代表就没有意外的灾难,所以大家不能对灾难始终抱有侥幸心理。虽然重大事故不会频发,然而事件一旦发生,其后果也极为严重。即使是百分之一的比率,也会造成数据损失的概率高达十分之九。

 另外对于数据丢失后的恢复,我们不能抱有“想当然”的心态,通常可以说是这种放松懒散的态度、以为方案一定会奏效的心理会在重要关头给自己当头一棒。比如现如今的虚拟化技术,使计算资源的利用和部署有了更大的灵活性,但是虚拟化有时也可能会让你产生一种虚假的安全感,你可能会不太想制定正确的灾难恢复计划,以为所有事情虚拟化都能搞定。要知道虚拟化并不能完全取代正确的灾难恢复计划和测试的需要。

  面对数据丢失的灾难,大家一定要未雨绸缪。无论你使用的是哪种恢复技术,最重要的还是定期进行恢复测试和演练。有了备份,我们也并非每次都能顺利从备份文件中恢复出宝贵的数据资料。运维时刻面临着意想不到的风险,最后忠告大家,一定要提前制定详细的应急预案,同时反复测试,平常多进行恢复演练,考虑多种不同的可能性,才会洞悉问题的本质所在。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值