2010年4月24日下午,宁夏银行8楼会议室里一片寂静,一场灾难恢复实战演练即将开始。会场上的气氛略显紧张,因为这毕竟是一次在相距800公里的两个站点之间进行的异地灾难恢复实战演练。以前,这种演练在国内银行系统是比较少见的。来自国内30多家城市商业银行、农村信用社的IT管理人员注视着演练现场的一举一动。
在演练之前,记者在楼道里巧遇美国飞康软件公司技术总监颜军。飞康公司是宁夏银行CDP应用级灾难恢复系统的技术提供商。颜军告诉记者,为了保证此次实战演练万无一失,在此之前的两天,他与宁夏银行参与演练的相关人员每天在银行交易结束后进行演练彩排,连续两晚都是深夜两三点才睡觉。颜军的脸上虽略带倦意,但是口气十分轻松。100%的灾难恢复成功率让他对即将开始的实战演练充满信心。
参与实战演练的全部是宁夏银行的人员,包括银行的管理人员、业务人员和技术人员。这样的演练能够真正考验宁夏银行应急管理组织架构中各相关部门的协同工作能力,让宁夏银行的灾难恢复相关技术人员能够熟悉灾难恢复的流程,同时也表明宁夏银行CDP应用级灾难恢复系统是一套简单易行且高效的灾难恢复系统。
不能本末倒置
为了保证此次实战演练的成功,宁夏银行做了精心的准备,并特意选择在下午交易接近结束时进行演练,避免对银行的交易造成影响。但是计划赶不上变化,因为种种原因,实战演练的时间提前了,本来准备下发的关于演练的内部通告也没有发出。因此,整个演练是在真实的银行交易过程中进行的,是一次名副其实的实战演练。
第一个演练场景是模拟数据库系统瘫痪情况下的系统恢复。15∶48,演练正式开始。银行柜面业务人员在处理一笔交易时,发现交易无法正常进行,便及时向技术部门告警。15∶52,技术部门确认系统发生故障,并提请进行系统灾难恢复。15∶53,银行领导决定,启动灾难恢复流程。15∶58,技术部门完成CDP数据提取,并加载到主机上。15∶59,系统恢复成功,主机启动。16∶00,应用加载成功,业务可正常进行。16∶02,柜面业务人员验证交易成功,没有数据丢失。RPO为零,RTO为14分钟,完全满足宁夏银行灾难系统的建设指标(RPO近似为零,RTO为60分钟)。
保证业务连续性是降低银行运营风险、提升服务水平所必须的。在银行实现数据和系统大集中的背景下,信息安全显得尤为重要。灾难恢复和业务连续性计划是银行信息安全的最后一道屏障,对于风险防范具有十分重要的意义。
宁夏银行信息技术部总经理王春表示:“通常情况下,硬件故障占40%,由人为误操作、应用程序故障或系统缺陷引起的逻辑故障占50%,而因为火灾、地震等自然灾害引起的大灾难发生的概率只有1%~2%。只有对面临的风险有清晰的认识,才能在建设灾难恢复系统时做到心中有数。”
一提到灾难恢复,很多人首先想到的是建立异地的灾备中心。建设异地灾备中心,不仅投资巨大,而且只有在发生火灾、地震等大灾难时才能真正发挥作用。企业如果用90%的资金去防范1%~2%的风险,其实是本末倒置。宁夏银行从2005年开始在灾难恢复和业务连续性计划方面进行尝试,平均每年的IT预算达到3000万元。宁夏银行十分清楚,经常发生且对银行业务安全影响较大的风险通常是硬件设备故障和逻辑错误,而不是火灾、地震等大灾难。因此在灾难恢复系统建设方面,宁夏银行没有急于求成,建设一个异地的灾备中心,而是从防范最基本的硬件设备故障入手,按部就班地进行灾难恢复体系的建设。
2006年,宁夏银行采用磁盘同步复制技术消除了存储阵列存在的单点故障问题,同时综合运用快照、备份等数据保护技术,保障了银行存储系统的安全。2009年,为了拓展业务,宁夏银行在西安建立了分行,跨区经营促使宁夏银行将建立异地灾备中心的计划提上了议事日程。即使如此,宁夏银行也没有盲目行事,而是进行了充分的市场调研和风险评估,希望建设一个高性价比的异地灾备系统。
建设一个异地灾备中心的投入非常大,包括基础设施建设成本、传输线路租用成本、运维成本等。宁夏银行因为在西安设立了分行,所以灾备中心的场所是现成的,这可以节省一大笔基础设施建设费用。宁夏银行在采用飞康CDP持续数据灾备技术的同时还采用了带宽精简技术,4M带宽就能满足灾备复制的基本要求,从而减少了带宽租用的成本。考虑到远程容灾的传输线路成本以及高昂的运维成本(可能达到千万元级),宁夏银行选择了更实用、更经济的CDP技术。
非CDP不可?
宁夏银行于2009年12月开始按照国家《信息系统灾难恢复规范》(GB/T 20988)灾难恢复第五级标准的相关要求,启动了异地灾备系统建设,灾备中心设在西安分行。考虑到要建立本地和异地一体化、分层次的灾难恢复系统,宁夏银行采用了能够覆盖所有灾难的CDP技术。飞康CDP技术具有精准任意时间点定位、分层次本地/异地双重恢复体系、全部灾难的防御能力、设备故障的业务不停顿能力以及远程带宽精简技术,因此得到了宁夏银行的青睐。
宁夏银行异地灾备项目于2010年1月进入设计、规划阶段,到4月15日,整个项目实施完毕,其中CDP方案的部署仅用了3周时间。宁夏银行异地灾备的建设目标是:本地RPO近似为零,RTO为60分钟,异地RPO为10分钟,RTO为两小时;跨省实现异地应用级容灾;本地实现持续数据保护和故障的快速恢复;实现对主生产设备硬件故障的应急保护;具有较低的建设成本和运营成本;具有较强的灾难恢复能力,可操作性强;灾备技术是开放的,不依赖于某个硬件设备厂商。
针对宁夏银行的需求,飞康设计了一套灾难和故障防御并举、用户行使恢复地点选择权、任意历史点恢复、用户自行管理的集备份与远程容灾于一体的综合数据保护解决方案。在生产机房通过部署飞康CDP管理器网关,对核心数据库和应用系统以及开发测试系统提供本地的持续数据保护。在应用级灾备的异地机房,同样部署飞康CDP设备,保证异地的连续数据传输。一旦发生生产系统故障,宁夏银行既可以选择在本地立即恢复运行(一般在10分钟以内),也可以选择利用异地灾备中心的数据进行应用级恢复。在数据库瘫痪时,只要启用飞康的录像精细化回放技术,就可以在本地快速恢复系统。
“按照《信息系统灾难恢复规范》的规定,最高的灾难恢复等级是6级,即RTO和RPO都为零。但实际情况是,国内最高等级的灾备中心也只能达到5++级。宁夏银行异地灾备系统的建设从实际需求出发,并不刻意追求过高的RTO和RPO指标。经过实际测算,我们目前可以容忍半小时以内的数据丢失量。”王春介绍说,“当初,我们之所以毫不犹豫地选择CDP技术,是因为CDP既可以实现硬件设备的故障恢复,也可以实现逻辑故障的恢复,并且能够实现生产中心与灾备中心的双向快速切换,在成本上也能满足我们的需要。”
挑战800公里异地容灾
在银行系统内部,同城灾备的实战演练屡见不鲜。但是像宁夏银行这样进行800公里异地灾难切换演练的并不多 。宁夏银行模拟的第二个场景是火灾发生时的异地灾难恢复。
16∶20,柜面业务人员发现交易故障,提请技术人员查看交易系统。16∶22,技术部门确认由于机房发生火灾,系统不能正常运行,提请进行异地切换。16∶26,银行领导发出异地切换指令,技术人员检查传输线路是否畅通,开始异地切换。16∶31,CDP系统在异地提取数据成功。16∶32,西安的灾备中心主机接管银川主生产中心的业务。16∶34,灾备中心启动业务成功。16∶36,经过验证,切换成功,数据无丢失。演练结束,异地切换RTO为15分钟,RPO小于10分钟,完全满足宁夏银行异地灾备系统的建设目标。
在短短1个小时的时间里,宁夏银行顺利地完成了数据库系统瘫痪和火灾情况下的灾备演练。作为技术支持的颜军从始至终静静地坐在演练人员的旁边,浅笑不语。此次演练验证了宁夏银行核心系统灾难备份技术方案的有效性以及灾难恢复策略的合理性和可操作性,并让宁夏银行的相关人员积累了灾难处理经验,进一步优化了其应急策略及预案。
对于银行来说,异地灾备系统的建设并不是终点。业务连续性的问题必须常抓不懈。王春表示:“现阶段,宁夏银行只实现了核心业务和柜面业务的应用级容灾。未来,宁夏银行计划将POS机、ATM机、电话和网上银行等业务全部纳入到应用级容灾的保护范围之内。”