目录
随着各行业数字化转型工作深化开展,数据成为了企业的重要资产。保障信息系统业务连续性和数据安全,当系统数据受到来自自然灾害、人为因素、病毒、黑客攻击等各方面的破坏和侵袭时,企业能够及时通过可靠高效的系统数据备份恢复机制,进行有效的系统数据灾难恢复至关重要。
一、系统灾难恢复能力等级
确定系统数据灾难恢复等级是备份恢复平台建设的一项重要参考因素,等级越高对系统数据保护越好,投入的资源成本也会随之上升。因此,对不同系统数据确定合理的灾难恢复能力等级,根据业务重要程度对系统数据采取不同的备份策略,从而在灾难恢复资源成本和系统数据遭受破坏无法恢复时造成的损失间取得平衡。《信息系统灾难恢复规范》作为灾难备份恢复的一个参考标准,将数据灾难恢复能力等级划分为六级。
(一)基础支持:数据备份系统每周至少可以进行一次完全数据备份,且备份介质需存放在符合条件的场外场地。
(二)备用场地支持:在满足一级的前提下,配备灾难恢复所需的部分数据处理设备,或灾难发生后能在预定时间内调配所需的数据处理设备到备用场地。需配备部分通信线路和相应的网络设备,或灾难发生后能够在预定时间内调配所需的通信线路和网络设备到备用场地。
(三)电子传输和部分设备支持:每天至少进行一次完全数据备份,备用介质场外存放,同时每天多次利用通信网络将关键数据定时批量传送至备用场地。需配备灾难恢复所需的部分数据处理设备、部分通信线路和相应的网络设备。
(四)电子传输及完整设备支持:在满足三级的基础上,需配备灾难恢复所需的全部数据处理设备、通信线路和网络设备,并处于就绪或运行状态。
(五)实时数据传输及完整设备支持:每天至少进行一次完全数据备份,备用介质场外存放,同时采用远程数据复制技术,利用通信网络将关键数据实时复制到备用场地。备用数据处理系统和网络系统方面,需在满足四级的前提下,具备通信网络自动或集中切换能力。
(六)数据零丢失和远程集群支持:实现远程数据实时备份,实现零丢失。备用数据处理系统需具备与生产数据处理系统一致的处理能力并完全兼容。应用软件可实时无缝切换,具备远程集群系统的实时监控和自动切换能力。
二、系统数据备份恢复架构
银川分行目前共3套VM虚拟化集群,包括生产集群、互联网测试集群和同城灾备环境集群,所有信息系统均运行于VM虚拟化环境。采用两台H3C UniStor CB备份一体机组建的备份机制,分别部署在生产机房和同城灾备机房。重点对生产集群数据进行全面本地备份,关键系统数据实现同城异地容灾备份,可随时恢复至灾备VM集群进行业务切换,综合恢复RPO、RTO等因素,系统数据灾难恢复能力等级达到三级。同时通过统一管理面板实时跟踪监控备份任务和恢复作业执行情况。
(一)数据备份策略
1.备份对象:进行备份的数据内容和数据存放的位置。分行备份对象主要包括VM虚拟机、操作系统、数据库实例和系统日志。
2.备份类型:数据备份采用的方式。按是否停机维度,分行目前采用热备份方式进行备份。按备份数据完整性维度,分行采用全量备份和增量备份结合的方式进行备份。同时对关键数据,每日通过窄带宽数据复制技术进行同城异地数据复制。
3.备份频率:数据备份任务执行间隔。分行重要系统数据按照每周全量、每日增量执行备份,其他系统备份频率随业务数据重要程度动态调整以减少系统资源压力。
4.备份时间窗口:备份操作执行的时间范围。分行系统均在业务低峰期执行备份。备份任务按照业务系统运行规律进行分组,从每日凌晨0点至次日早晨7点之间,依次分组执行备份。
5.备份保存时长:备份文件保存时长。分行重要系统和关键数据保存时间一般为半年,其他系统按照业务重要程度分别保存1个月或3个月。对监管及总行有规定的系统数据,按照要求设置保存时长。
6.备份存放:备份存放的位置。分行备份数据主要存放在生产机房备份一体机磁盘库,重要数据同步复制至灾备机房备份一体机磁盘库存放。
(二)主要实现的备份场景
1.VM虚拟化环境无代理备份
基于VMware vStorage技术,使用已安装Virtual Environment Integration组件(VEAgent)的备份主机备份ESXI Server托管的VM虚拟机。在vStorage映像备份期间,VEAgent首先在备份主机和虚拟化主机(vCenter Server或独立的ESXI Server)间建立连接。然后,通过VMware vSphere Storage API数据保护请求需备份的虚拟机快照,使用此快照使虚拟机保持一致状态。最后,VEAgent通过LAN或SAN打开虚拟机磁盘,初始化介质代理客户机并控制对虚拟机及其关联数据的传输。
2.VM虚拟机即时恢复
通过将备份一体机上备份的虚拟机磁盘以NFS方式挂载到指定的ESXI Server,并自动将虚拟机注册到VM虚拟化环境。同时利用实时迁移功能,在虚拟机启动后,调用VMware的Storage Vmotion功能后台将存储在线迁移到生产存储环境,实现业务即时恢复,大大缩减业务恢复时间。
3.Oracle数据库图形界面备份
备份会话管理器触发备份任务,读取备份规范,在Oracle Server上通过指定的操作系统用户帐户启动ob2rman.pl,ob2rman.pl准备环境发送RMAN备份指令,引导Oracle Server进程执行指定命令。Oracle Server进程从磁盘读取数据,通过MML和Media Agent(备份设备管理进程)将数据发送到备份设备。RMAN将有关备份的信息写入恢复编目或Oracle目标数据库控制文件。备份会话管理器将有关备份会话消息和信息写入IDB,Media Agent将数据写入备份设备。
(三)数据恢复验证
数据恢复是从备份副本重新创建原始数据的过程,由数据准备、实际恢复和恢复后操作组成。数据破坏后,完成恢复后才能使用数据,同时尽可能缩短恢复时间,将业务影响降至最低非常重要。数据恢复验证是为了检验数据备份的可靠性、完整性和一致性。分行目前主要通过每年信息系统应急演练等时间窗口,定期进行生产机房重要系统数据恢复验证测试。
三、总结
在数字化转型的大趋势下,数据作为一项生产要素发挥着越来越重要的价值,数据安全问题也更加突出,数据损坏会引发愈发严重的后果。为此,我们还需进一步参考系统数据灾备建设规范,合理规划系统数据灾备建设和定级,完善数据备份机制,优化数据备份策略,特别是在数据恢复验证质量等方面持续提升,保障数据安全和业务连续性,筑牢数据安全的最后一道防线。
作者:马国强