H3C的备份系统从2007年开始启用,从开始的一次全备数据4T到2012年40T, 5年时间数据增长10倍。据IDC统计,每隔一年半,新的企业数据将会翻一番。
文/倪泽峰
数据是整个系统运作的核心。人为的操作错误、软件缺陷、硬件故障、电脑病毒、骇客攻击以及自然灾难等诸多因素均有可能造成数据的丢失,从而造成无法估量的损失。在诸多不确定因素面前,需要提供统一的企业数据管理方案来确保高性能数据保护、整体的可用性和对复杂存储网络的便捷管理。这其中,如何提高备份恢复的性能和成功率,如何方便的维护和管理最受关注。
一、H3C的备份系统概况
H3C的业务应用涉及企业OA、ERP、研发管理等,因此备份系统非常重要。H3C的服务器资源主要分布在北京和杭州,本着资源就近的原则,备份系统主要部署在北京研发中心、杭州基地及IDC数据中心,三地通过CommCell统一管理,实现资源共享、节约成本,磁带放到任何地点的备份服务器上都能恢复(如图1所示)。
图1备份系统网络拓扑示意图
在图1中的IDC数据中心,Commserv部署在Hyper虚拟机上,备份系统的高可用主要通过虚拟机的cluster模式实现。数据库中心有两台介质服务器通过FC SAN模式连接带库,服务器之间通过网格备份(GridStor)技术向多个介质服务器上备份,以保障负载均衡及宕机切换。还有一台服务器采用万兆网口,连接IDC核心交换机。随着备份数据的不断增长,备份客户端数量的急剧增加,而备份时间窗不变(20:00—08:00)势必造成介质服务器端的网络流量压力越来越大,万兆网络介质服务器的应用,解决了网络方面的瓶颈。
图1中的北京研发中心,部署了三台介质服务器,其中一台直连带库,另外两台通过共享FC SAN的模式连接带库。介质服务器间也通过GridStor技术向多个介质服务器上备份。
二、H3C的备份模式
业界常规应用的有四种备份模式:LAN Backup、LAN Free Backup、Server Free Backup和Server Less Backup。LAN模式通过网络数据流备份到带库或磁库中,LAN Free模式针对千兆网络的瓶颈,走SAN网络数据流,更大程度地提高了备份速度。这两种模式都会影响生产环境主机的资源,特别是磁盘和网络。如果希望一些应用环境在备份的时候不受影响,就需要考虑Server Free Backup或Server Less Backup模式,这二者之间的主要区别在于Server Less Backup解放了介质服务器,性能更好。它们与LAN和LAN Free模式相比,对备份系统的要求更高,而且需特定的存储支持,成本投入较大。
H3C的业务对备份系统的性能和效率有一定要求,但与互联网等涉及公众应用的业务系统相比,还不需要过于“苛刻”。例如目前H3C的各类业务系统可接受的平均备份恢复时间为24小时。因此,IT部门选择了LAN和LAN Free备份模式。
lLAN Free模式
对连入SAN网的生产机采用LAN Free模式,在该模式下,在生产系统内需要安装iDataAgent和SAN Media Agent模块。如图2所示,在备份操作时, iDataAgent模块把需要备份的数据从生产数据存储设备中读入生产机,并在生产机内把备份数据传给SAN Media Agent模块, SAN Media Agent模块将把数据通过SAN写到备份设备上;在恢复操作时, SAN Media Agent将通过SAN网从备份设备上读入恢复数据,在生产机内把数据传给iDataAgent,iDataAgent把数据写入生产系统。在LAN Free模式下,备份/恢复操作的数据经过SAN网转送。
图1
图2LAN Free模式的备份示意
lLAN模式
对那些没连入SAN网的生产机采用LAN模式,在该模式下,在生产机内只需要安装iDataAgent模块。如图3所示,在备份操作时, iDataAgent模块把需要备份的数据从生产数据存储设备中读入生产机,并通过LAN把备份数据传给专用Media Agent服务器,Media Agent服务器将把数据通过SAN写到备份设备上;在恢复操作时, Media Agent服务器将通过SAN网从备份设备上读入恢复数据,并通过LAN把数据传给iDataAgent,iDataAgent把数据写入生产系统。在LAN模式下,备份/恢复操作的数据需要经过LAN网转送。
图2
图3LAN模式的备份示意
三、备份方案的不断优化
l2008年,容灾方式由磁带异地存放改为异地辅助拷贝
备份系统刚上线初期,IT部门采用了磁带异地存放的方式进行容灾,而且每次通过人工的方式把介质从IDC数据中心移至杭州基地,这种方式缺点很明显,付出取磁带的时间、额外的人力成本,还存在磁带在途中丢失损坏的风险。经综合评估,IT部门在2008年启动了远程异地复制项目。采用2段式索引,多级备份存储结构体系,断点续传等功能实现异地灾备,同时能够将多个地区规划成一个备份域,集中管理。当然此方式由于数据的传输中流量非常大,也给数据中心到杭州基地的网络带宽带来一定的压力。
l2009年,由多套备份系统改为Commvault统一管理
北京研发中心最早采用Symantec Backup Exec(BE)进行备份,但BE对Unix&Linux支持不太理想。同时杭州基地又采用的是Commvault进行备份,多套备份系统造成管理上的麻烦,而且不能统一管理,资源就不能共享,问题日益突出。在这种背景下,IT部门对北京BE备份进行整合,统一备份,集中管理。
优化前后的架构如图4和图5所示:
图4优化前的架构
图5优化后的架构
l2010年,备份系统架构从手动模式调整为网格模式
备份系统的性能与网络带宽密不可分,各个客户端的数据需要备份到统一的带库或磁库中,数据的流量非常大,通过平衡各介质服务器的网络流量可以暂时解决网络流量瓶颈的问题。
网格备份能够支持1个备份任务负载均衡的向多个介质服务器上备份,并且把备份数据平分到2个介质服务器上的磁盘中,从而提高备份速度和效率。同时也支持自动在多条网络路径上的Failover,提高备份成功率的同时充分利用了网络、存储和主机资源带宽;而且不会由于慢客户端或者备份数据的差别太大浪费资源。
H3C现有的服务器性能不一,各个服务器上需要备份的数据大小差别又很大。采用这种方式,当用多台备份服务器备份时,能够将所有的资源有效利用,降低总成本。
从表1的对比可以看出,没有实施网格备份前,由于网络流量的分配不均衡的,体现在备份时间窗为8.5小时,实施后,减为7小时。
Gridstor备份时间窗
Gridstor部署前8.5小时(21:00-05:30)
Gridstor部署后7小时(21:00-04:00)
表1.实施网格备份前后时间窗的对比
但是从根本上解决介质服务器带宽的问题,就需要升级为万兆网络,由于现有网络结构复杂,升级为万兆网络需要付出一定的代价,故先采用网格备份对网络进行优化,对于新上的备份系统,可以部署万兆网络。
l2011年,CommServe进行虚拟化
服务器虚拟化可以有效节约硬件成本,提升系统的SLA。但虚拟机可否满足备份系统的要求?如图1所示,备份的核心数据存放于CommServe上,经过验证虚拟机完全可以满足其压力要求。在可用性要求上,备份系统需要随时待命,这方面通过虚拟机的cluster来满足。此外,介质服务器需要连接带库等硬件设备,现在的虚拟化还不能模拟FC、SCSI等接口,故不能对Media Agent服务器进行虚拟化。
四、小结:H3C对备份系统的体会
l备份成功率:数据是企业的核心,所以必须有完善的方式,。可以采用断点续传,合成全备份,网格存储等技术手段,来提高备份系统的成功率,来确保备份的成功率。
l可恢复性:备份的目的是为了恢复。所以必须能够对备份的介质进行定期维护。同时,IT部门应定期进行恢复演练,定期进行数据恢复的测试。确保备份数据的万无一失。
l可管理性:H3C备份的服务器近百台,备份的数据量超过40TB,备份的设备既有磁盘也有磁带。所以备份系统的管理和维护非常重要,备份系统应该能够以策略的方式最少化配置工作量,方便安装和管理。IT部门定制了报警和报告信息并通过Email发送给系统管理人员,从而方便维护人员的排错和管理。
l可扩展性:需要考虑未来将进一步将其它各个区域的数据集中备份和管理,包括数据量的增加、设备的增加以及区域的扩展(有可能是异地的数据)。备份系统还需要考虑到异地的备份和管理,所以备份系统也必须支持广域网的备份和管理。
l经济性:为了降低整个备份系统的总成本,一方面可以通过备份系统的性能优化以最少化备份设备的性能资源,共享存储资源(减少驱动器等);同时可以通过ILM(信息生命周期管理)的方式,来减少对备份介质的占用率。可以通过单实例存储、DLM(数据生命周期管理)等技术来减少存储介质的消耗,降低成本(减少磁带或者磁盘)。异地备份和管理的情况下,要考虑如何最少化备份系统的支出。
l权限管理和数据安全:鉴于数据的重要性,为了防止备份数据遭到非法的恢复造成数据泄密。备份系统不仅应该支持数据加密,而且对管理员的权限要有明确的限制。必须支持不同管理员执行能力的角色授权。例如:有些管理人员只能备份,而不允许恢复。
五、结束语
随着技术的发展和管理要求的提高,备份系统将不仅仅作为数据保护系统的一部分独立存在,还将是IT管理中更加紧密的一环。随着虚拟化进程的发展,对备份技术也发起了挑战,几十台虚拟机跑在同一台服务器上,而且都必须备份,势必会在磁盘IO、网络带宽产生瓶颈,因此必须把传统的企业备份技术与时俱进,加强与虚拟化技术的融合来应对虚拟化的备份。