四月的宁夏,空气中逐渐开始弥漫着春的味道。宁夏银行大厦的门前,刚刚成功完成 CDP 容灾实战演练的宁夏银行IT经理王春走出大门,疲惫的脸色中露出了一丝喜悦。实战演练的成功使得王春这个40多岁、不苟言笑的西北汉子如释重负。笔者也借此与他攀谈起宁夏银行IT建设的点点滴滴。攀谈之余,笔者无意发现宁夏银行门口的营业时间牌上显示营业时间为上午9点到晚上10点,笔者略带惊讶地询问王春这是为何?王春面带微笑的表示:区域性商业银行市场竞争压力更大,以前我们是24小时营业,业务的严格需求使得我们干IT的压力同样巨大,回想起以前用磁带备份的年代,那真是晚上做梦都梦见敲磁带命令……
   【引子】我们无法改变数据增长,但我们可以消除重复数据;我们无法改变磁带的软肋,但可以创造全新的备份技术,我们无法改变业务的发展,但可以保障业务的连续;我们无法预知灾难的发生,但我们可以利用先进的恢复手段……
  4月25号,宁夏银行在其 数据中心举办了“区域性商业银行业务连续性和 灾备中心建设研讨会”,本次研讨会吸引了全国40多家区域性银行的IT负责人出席观摩。对于国内银行来说,能够现场观摩容灾实战演练非常难得,笔者也有幸观看了演练的全过程。
   实战演练之数据库瘫痪
  此次实战演练首先进行的是“数据库瘫痪后的快速恢复”演练,该演练是国内银行界第一个具备数据损坏修复场景的演练,整个数据库修复过程均在本地完成,毫无疑问,这一演练在国内灾备界是具有开创性的意义。演练流程为:由于核心数据库瘫痪致使柜面系统无法正常工作,银行核心业务陷入瘫痪,宁夏银行在十余分钟的时间内完成了从柜台营业员发现业务系统瘫痪到完全恢复业务运行的整个过程,其中利用CDP恢复瘫痪数据库的过程只用了4分多钟。
  
   图一:宁夏银行数据库瘫痪演练汇报流程。网点业务人员发现故障之后报告给系统管理员,系统管理员进行系统诊断,然后通过与恢复管理员进行损害评估,得出相应的恢复方案,最后启动恢复,通过CDP技术的提取、主机系统加载、数据库启动、应用加载、业务验证等技术环节,十余分钟后让宁夏银行核心业务恢复正常运转状态。
  灾难建设的目的是什么?这个问题是非常值得大家去思考的,明确了灾难建设的目的,才知道自己需要干什么,有的放矢才能够让自己的灾难建设工作更为清晰,少走不必要的弯路。宁夏银行王春表示:“灾难建设不仅仅局限在灾难发生时,保障业务连续性才是最根本的目的,从区域性银行的角度出发,我们利用CDP技术就是为了能够更好的保障像柜面业务等银行核心业务的业务连续性,缩短在灾难发生时的业务中断时间,减少灾难带来的各方面损失。”
  另外一个非常值得思考的问题是:我们应该重点防范哪类灾难?其实根据IDC、Gartner等权威咨询机构的调研数据表示,逻辑错误(应用软件缺陷、系统缺陷、人为误操作)、硬件故障等常规问题的概率远远大于自然灾难的概率。防范这些大概率灾难的意义远远大于小概率灾难。宁夏银行王春深有感触:“对风险的认识更为清晰对灾难建设有着巨大的帮助,如果一个 企业把灾难建设90%的成本投入到1%的灾难上,那么不仅仅是投入成本不合理,对企业日常出现的那些大概率的逻辑错误和硬件故障将毫无帮助。”
  
   图二:宁夏银行CDP实战演练现场。宁夏银行从2006年就已经不再使用磁带备份,宁夏银行认为磁带备份具有很多缺陷,很多逻辑错误解决不了,恢复起来异常困难。而像CDP技术,利用快照、录像回滚等技术能够做到全方位、快速、有效的恢复,完美的解决各种突发的、大概率的事件,对保证业务连续性有很大的帮助。
  区域性商业银行的容灾建设技术选择也是一个非常值得探讨的话题。银行的特殊性决定了它对业务连续性的要求非常之高,而中小规模的银行在IT建设投入的资金则没法跟四大行相比,如果充分的利用资金、选择合理的技术则是每个区域性商业银行需要面临的难题。宁夏银行王春告诉笔者:“当时参与这个项目招标的有三家公司: EMC、赛门铁克、飞康;有些大厂商的初期投入成本并不高,但是后期的持续运营成本却是我们这种区域性商业银行所不能承受的,三家公司在技术上都各有特点,最终我们选择了飞康CDP解决方案,我们发现飞康CDP解决方案能够全方位的应对各种风险,在一些逻辑错误的恢复上能够做到操作简单、恢复快速,使得后期运营成本比其他大厂商大大的降低。另外,飞康CDP具备独特的录像回滚技术,在发生各种逻辑故障之后,只需要利用飞康CDP的“录像”精细化回放技术就可以精准定位历史轨迹,从而快速恢复系统,在大幅化解风险的同时,使业务持续运行得到了最大限度的保障。”
   实战演练之火灾
  此次演练的第二个是“火灾发生之后的异地切换”演练,该演练是国内第一个在800公里之外的异地实现灾难切换的演习,应该说对于很多企业级用户来说都非常具有参考价值。演练流程为:模拟数据中心发生火灾之后,如何快速有效的启动异地切换,从而尽量降低火灾对银行业务的影响,确保银行业务的正常进行,从事件发生到恢复整个过程要求在半个小时左右时间完成,其中CDP完成异地切换的过程为6分钟。
  
   图三:宁夏银行容灾系统架构图。火灾发生之后,迅速报告系统管理员,然后与恢复管理员进行快速评估,启动异地切换,通过灾难网络检查、CDP数据提取、主机系统加载、数据库启动、应用加载、前置变更、业务验证等技术环节,只用6分钟即完成了异地切换的恢复工作。
  宁夏银行于2009年下半年在西安设立了分行,这意味宁夏银行具备分支机构、可以跨地域经营业务。业务的改变和新需求也对灾备建设提出了新的要求,建立本地、异地一体化的应用级灾备系统就成为宁夏银行首要任务。宁夏银行王春表示:“通过建设,我们的核心业务能够做到本地、异地一体化;但是在 ATM、网络银行、POS机还需要进一步完善,这也是我们下一步工作的重点。”
  谈到异地灾备中心的建设,一个不可忽略的问题就是带宽成本!灾备建设的前期投入也许并不算高,但是如果没选对合理、有效的技术,则有可能大幅增加运营成本,比如说带宽成本,如果数据没有经过精简就进行传输,那么这方面的投入将是巨大的。宁夏银行王春认为:“带宽精简技术能够大幅降低我们的运营成本,飞康CDP的带宽精简技术使得我们在投入并不算高的情况下,很好的把异地灾备中心建立起来。”
  “CDP技术帮我们实现了本地保护与异地容灾兼顾、内部故障与大型灾难分层次恢复的全面灾备体系,而且,它的运维成本相对也比较低,非常适合宁夏银行IT建设的需求,并且能够很好的支撑宁夏银行未来几年的业务发展!”宁夏银行王春如是说。
   总结:
   其实当前很多区域性商业银行的容灾建设都是参照了四大行过去的容灾模式和技术,笔者不禁要问:真的需要这样做么,难道我们不可以另辟蹊径么?相比于四大行雄厚的IT资金投入,很多区域性商业银行并没有这种条件,如果学会选择利用合理的技术,同样可以达到降低大部分风险的目的。当前,很多区域性商业银行都开始着手准备灾备建设,宁夏银行的成功经验也许值得我们大家去学习!
  后记:演练成功的喜悦让王春如释重负、侃侃而谈,这也就出现了本文开头的那副场景。如释重负的王春并没有丝毫的放松,因为他很清楚未来的任务与挑战同样艰巨!