三. 项目技术要求和有关说明
(一) 项目技术要求:
一、 项目概况
1.1 建设 概况
1.1.1 建设背景
人是任何社会中最基本的活动主体,现代社会尤其强调以人为本。随着我国行政管理模式逐步向以人为本转变,人的基本信息在整个政府的服务管理工作中越来越发挥重要作用。劳动就业、税收征管、个人信用、社会保障、人口普查、婚姻家庭、计划生育、打击犯罪等方方面面的工作无不与人口基础信息密切联系。尤其伴随近几年经济的高速发展,政府工作的重心转向“以人为本,服务社会”,在这种形势下,基于人口服务管理、服务社会为目的的人口信息系统的建设不仅符合政府信息化要求,也是实现政府工作重心转变的重要保障。
无锡市的人口信息资源主要分布于公安、民政、人事、劳动和社会保障、卫生、人口计生、教育、房管、税务、残联等承担社会保障和百姓服务职能的各政府部门,他们从各自主管业务出发,完成或在建本系统内涵盖多级机构的网络版业务信息系统和业务数据库,主要业务工作已实现数字化、信息化,有的还实现了网上申报、网上审批等便捷功能。但是目前各业务信息系统在涉及人口信息资源的建设中普遍存在纵强横弱现象,各类业务资源分散,互不相通,呈部门化、条块化分布,缺乏有效的横向资源共享机制。
去年以创新人口服务管理体制为契机,市人口计生委承建了无锡市人口综合信息管理系统,目前已顺利上线运行一年,取得良好的效果。系统一方面加快整合,把分散在各地、各部门有关人口服务管理方面的信息资源整合起来,建立横向连通公安、民政、人事、劳动和社会保障、卫生、人口计生、教育、房管、税务、残联等相关部门的统一共享的人口信息交换平台,发挥人口信息的最大效应;另一方面全面延伸,纵向连接各市、各市(县)区、街道(镇)、社区(村),实现“多口采集、统一管理、联合开发、共享使用”的全新数据采集管理模式,现已达成社区全面采集、业务部门信息共享的新机制。
利用建设市人口综合信息管理系统的契机,促进人口管理从人的行为管理向人的服务管理转变。通过建立人口信息管理规范,制定人口基本信息的相关数据标准,确立人口信息分级管理、资源共享的有效机制,建设统一的信息平台,促进人口管理从传统分散管理向综合服务管理的转变,实现全社会充分共享人口信息资源。同时,通过对人口信息的动态分析,为相关部门的重要决策提供有利依据。
1.1.2 建设目标
市人口综合信息管理系统的建设增强了政府社会管理和公共服务效能,立足提高人口服务管理水平为着眼点,以信息技术为支撑,以汇集政府各相关部门人口信息资源为手段,坚持一切从实际工作需求出发,统一规划、统一设计、统一标准,分阶段、分步骤实施。信息平台的建设体现高效、统一、专业,最终实现纵向数据贯通,横向信息集成,系统集中管理,信息资源共享的特点。通过完成市人口综合信息管理系统的硬件建设和软件开发,以服务外包形式委托运营,全面实现了智能化人口服务管理、网络化业务处理、科学化辅助决策、集中化数据汇总的信息管理和服务平台,其重要性不言而喻。
为认真落实市委市政府《关于加强人口服务管理工作的决定》锡委发【 2008】50号文件中“按照1200万人口的信息容量建设人口综合信息数据库;开发具有人口综合信息社区化采集、分类传送查询、统计、分析等功能的管理系统和具有对各相关部门人口信息读取、比对、交换等功能的信息对接系统,建立完善的系统安全保障和数据备份体系,实现人口信息的全面掌握、有效管理和充分利用”要求,以及中共无锡市委办公室无锡市人民政府办公室关于印发《无锡市人口综合信息采集管理和服务办法(试行)》的通知第五章信息安全保障第二十二条中“建立健全各项安全管理制度,落实相应的技术保障措施,定期做好系统数据的备份工作”要求,另外按照市委赵旻副书记在市人口综合信息管理系统启用仪式上讲话时提出的“确保数据安全,做好备份措施”指示精神,决定在市人口综合信息管理系统现有硬件环境上增加实时备份的容灾备份建设内容,目的是建设完成应用级灾备系统,以确保无锡市人口数据的安全和人口综合信息管理系统的稳定运行。
1.1.3 建设必要性
随着信息化进程的飞速发展和信息技术的广泛应用,数据越来越成为政务工作中不可缺少的部分和领导决策的依据。但是,计算机的使用有时也会给人们带来烦恼,那就是计算机数据非常容易丢失和遭到破坏。当计算机系统越来越成为政府不可或缺的数据载体时,如何利用数据备份来保证数据安全也成为政府迫切需要研究的一个课题。
数据遭到破坏,有可能是人为的因素,也可能是由于各种不可预测的因素,主要包括以下几个方面:
( 1)计算机硬件故障。计算机是一个机器,其硬件是整个系统的基础。由于使用不当或者计算机产品质量不佳、配件老化等原因,计算机的硬件可能被损坏而不能使用。例如,硬盘的磁道损坏和马达故障。
( 2)计算机软件系统的不稳定。由于用户使用不当或者系统的可靠性不稳定等原因,计算机软件系统有可能瘫痪,无法使用。
( 3)误操作。这是人为的事故,不可能完全避免。例如,管理员在使用DELETE句执行特定操作的时候,不小心删除了有用的数据。
( 4)破坏性病毒。病毒是系统可能遭到破坏的一个非常重要的原因。随着信息技术的发展,各种病毒也随之泛滥。现在,病毒不仅仅能破坏软件系统,还可以破坏计算机的硬件设备。
( 5)自然灾害,例如大火、洪水、地震等。这是一种人力几乎无法抗拒的原因。
目前,国际上对电脑安全技术越来越重视,人们的安全意识越来越浓,体现在电脑安全技术的应用从个别的特殊行业发展到各行各业,其中就包含各级政府部门;从对电脑设备的重视发展到对核心数据的安全的重视,这已经是一个不可逆转的趋势。市人口计生委承建管理市人口综合信息管理系统,系统数据库包含了全市超过 700万全员人口的个案信息和各部门上报的统计信息,其拥有极高的保密和安全要求,一旦发生任何意外状况都将造成不可挽回的严重损失,全市各级部门和所有社区工作人员的多年辛勤劳动都可能在顺间化为乌有,系统宕机也势必造成服务中断,政府部分职能无法正常履行等,所以针对以上种种问题最好的解决方案--灾备建设势在必行。
1.1.4 建设原则
无锡市人口综合信息管理系统灾备项目设计本着实用性、安全性、可靠性、开放性、先进性、可管理性、可扩充性相结合的原则,充分考虑现有业务运行情况,并结合当前成熟技术及发展方向。
★ 实用性原则
以现行需求为基础,保护和利用已有资源,充分考虑发展的需要来确定系统规模。
★ 安全性原则
无锡市人口综合信息管理系统涉及全市本地户籍人口和非本地户籍人口的个案信息,对数据安全级别要求较高,需要建立完善的安全管理体系。
★ 可靠性原则
系统设计在设备的选择和关键设备的互联时,应充分考虑各类情况的发生,一方面最大限度地减少故障的可能性,另一方面要保证故障部位能在最短时间内修复。
★ 成熟和先进性原则
系统结构设计、系统配置、系统管理方式等方面采用国际上先进同时又是成熟、实用的技术。
★ 规范性原则
系统设计所采用的技术和设备符合国际标准、国家标准和业界标准,为系统的扩展升级、后续改造提供良好的基础。
★ 可管理性原则
整个系统的软硬件应易于管理,易于维护,操作简单,便于进行系统配置,在设备、安全性、数据流量、性能等方面得到很好的监视和控制,并可以进行远程管理和故障诊断。
1.1.5 建设功能
无锡市早已建成连接全市、市(县)区、街道(镇)、社区(村)四级的政务网络。作为一个重要的政务工程,市人口综合信息管理系统依托此网运行。由于种种原因,该系统目前仅采用了一台磁带库进行周、月、季度的数据备份工作,其效果有限。为确保系统长时间无故障稳定运行,系统数据安全不丢失,建设应用级系统灾备是整个人口工作信息化建设的当务之急。
本次设计建设的灾备体系主要包括异地数据实时备份和异地备份系统两大内容。其中异地数据实时备份是为了尽量降低发生突发情况后,带来的数据丢失、数据错误等损失,尽可能保护系统内数据,避免全市人口个案信息毁于一旦。异地备份系统按照主系统的镜像建设,除分配不同的 IP地址外,其余部分与主系统完全一致,目的是满足当发生突发情况时可短时间内切换使用,平稳过渡系统服务,避免长时间中断带来的工作停滞。除此以外,因为灾备系统的建设,当发生需要严重消耗系统资源的操作时,可以在备份系统执行,完全避免对主系统的干扰,分担系统资源压力,降低系统服务宕机的可能性。
1.1.6 建设规模
对应市人口综合信息管理系统的整体规划,本项目要求建设应用级异地灾备体系,实时备份主站数据,特定情况提供系统服务。灾备机房必须安排在有政务外网接入条件的江阴或者宜兴,机房内设置硬件平台和主站镜像系统。
1.1.7 建设内容
1、本地信息中心机房硬件平台调整;
2、本地信息中心机房软件系统调整;
3、异地灾备机房硬件平台建设;
4、异地实时备份的人口信息数据库建设;
5、异地灾备机房软件系统架设 。
1.2 效益分析
  无锡市人口综合信息管理系统的投入使用在以下六大方面取得了卓越成效:
    1、充分发挥社区(村)的人口服务管理功能。
    市人口综合信息管理系统建设是全面加强人口服务管理工作的重要举措,是推动社区事务工作站(村社区服务中心)全面建设的有效方式。其整合各条线部门在社区(村)的力量,实施人口信息管理工作,采用“一表式采集”,有效提升社区(村)综合服务管理工作效率。
2、全面强化数据交换。
市人口综合信息管理系统与公安、民政、人事、劳动和社会保障、卫生、人口计生、教育、房管、税务、残联等相关部门的信息系统实时对接,定期或周期×××换共享各部门自有人口相关数据,实现各级政府业务部门之间的信息交互、数据共享,增加管理的透明度,加强政府部门的管理能力、决策能力、公共服务能力,克服决策的盲目性和局限性,解决信息闭塞、多头采集等问题。
3、保证数据的实时性、准确性、有效性。
采用信息化手段进行数据的采集和管理,可以实现信息即时汇集、资源共享,免除政府重复建设、多头采集的投入,提高行政效能,节约国家财政资金。通过健全的系统运行机制,提高决策和政策执行效率。
4、为各级政府提供人口相关信息依据。
    市人口综合信息管理系统通过对全市人口信息的数据利用,选择合理的数据模型,进行人口相关专题预测预警、统计分析,具有综合分析人口因素与经济和社会发展、资源和环境状况之间相互影响的内在机理,支持宏观经济、社会政策的决策功能。
5、推进城市现代化,便于统筹解决流动人口公共服务管理问题。
    通过人口信息网络向社区延伸,加强非本地户籍人口信息管理,提高城市服务管理水平,为政府科学制定流动人口数量和结构的综合调控目标和调控办法,健全统筹解决流动人口问题的公共管理机制,提高流动人口服务管理水平提供科学依据,促进城市现代化建设。
目前无锡市人口综合信息管理系统正逐渐体现出其建设的重要意义和作用。随着应用的深入,数据安全问题越发突出,万一丢失数据、系统宕机都将造成严重的损失。为确保系统不间断稳定运行,数据安全不丢失,后续保障性建设刻不容缓。灾备体系的新增完全解决了上述的系列问题,无形中为无锡市人口综合信息管理系统撑起了一把保护伞。
1.3 结论
保障人口信息管理机制,推进人口服务管理工作信息化建设,充分利用各类人口信息采集管理渠道,有助于无锡市人口综合信息管理网络,加强系统运用,实现人口综合信息的社区化集中采集、数字化统一管理和按权限分类传送使用,是贯彻落实“三个代表”重要思想、构建社会主义和谐社会的具体表现;是履行以人为本,为民服务宗旨的实际行动;是提高工作效率,转变工作作风的有效措施。按照国家、省和市三级相关文件精神要求,加快人口信息化安全中心的保障工作,切实提升人口服务管理的能力与安全性。无锡市的人口信息化能够有效地汇集政府、社会和社区的各类资源,为百姓提供优质完善的服务。其不仅对市、市(县)区、街道(镇)、社区(村)四级及相关单位的人口信息实行统一管理,有效提高工作效率和工作质量,还为各级政府和人口业务管理部门提供多种数据分析的科学手段,提高宏观决策的水平和监测能力。同时,对市领导和机关各部门提供多种信息服务,有利于提高城市管理与公共服务水平;有利于有效地推动第三产业的发展,全方位促进城区经济的发展,进一步提升无锡城市形象,增强无锡市的区域竞争力。
人口综合信息管理系统建设项目已经具有显著的社会效益和经济效益。该项目已经适应无锡市“一当好、三争创”的需要,能够满足各级领导与机关部门对人口信息的需求,能够辅助政府做好多项决策,对于更好地为人的全面发展服务,促进社会和谐,维护社会稳定,促进国民经济持续快速健康发展,都具有十分重要的作用。无锡市的人口信息化建设,无论是从系统的必要性、可行性着眼,还是从社会效益、经济效益分析,都必须增加灾备体系,对其进行全方位的保护。灾备中心不光只是在出现灾难时,保证应用不中断,它也可以独立的作为一套系统为其他应用服务,数据与信息中心保持同步,通过 IP网络实现热备份。灾备中心的建设,对人口服务管理信息化建设的完善起到很大作用。
2.1 容灾概念
随着信息时代的到来,数据越来越突出地成为社会正常运作的核心。对于政府来讲,数据已然成为各部门的核心价值利益所在和开展业务工作的基础条件,其依赖性与日俱增,如遇突发性灾难如火灾、洪水、地震或者恐怖事件、人为破坏等将直接造成数据丢失、业务中断的情况发生,间接造成经济损失和不良的社会影响,为群众的办事带来困难。因此,如何保证在灾难发生时,重要数据不丢失,保证系统服务尽快恢复运行成为相关部门领导关注的话题,所以,容灾技术日益成为各政府部门关注的焦点。
容灾( Disaster Tolerance),就是在上述的灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断地运行。一个和容灾易混淆的概念是容错(Fault Tolerance),容错指在计算机系统的软件、硬件发生故障时,保证计算机系统中仍能工作的能力。容错和容灾最大的区别是,容错可以通过硬件冗余、错误检查和热交换再加上特殊的软件来实现,而容灾必须通过系统冗余、灾难检测和系统迁移等技术来实现。当设备故障不能通过容错机制解决而导致系统宕机时,这种故障的解决就属于容灾的范畴。另外一个容易和容灾混淆的概念是灾难恢复(Disaster Recovery),灾难恢复指的是在灾难发生后,将系统恢复到正常运作的能力。灾难恢复和容灾的区别是,容灾强调的是在灾难发生时,保证系统业务持续不间断地运行的能力,而灾难恢复强调的灾难之后,系统的恢复能力。
  从容灾的层次讲,容灾又可以分成数据容灾和应用容灾,本质上讲,这两种容灾是密不可分的。数据容灾是应用容灾的基础,没有数据的一致性,就没有应用的连续性,应用容灾也是无法保证的。数据容灾是指建立一个备用的数据系统,该备用系统对生产系统的关键数据进行备份。应用容灾则是在数据容灾之上,建立一套与生产系统相当的备份应用系统。在灾难发生后,将应用迅速切换到备用系统,备份系统替代主系统的业务运行。
容灾的种类划分
  1. 本地容灾:即将系统数据或应用在本地备份,无异地后援。这一级别的容灾,仅能应付本地的硬件损坏或人为因素造成的灾难。
  2. 异地数据冷备份:即将系统数据备份到物理介质(磁盘、磁带或光盘)上,然后送到异地进行保存。这种方案成本低、易于实现。但是在灾难发生时,数据的丢失量大,并且系统需要很长的恢复时间,无法保持业务的连续性。
  3. 异地数据热备份:即在异地建立一个热备份中心,采取同步或者异步方式,通过网络将生产系统的数据备份到备份系统中。备份系统只备份数据,不承担主系统的业务。当灾难发生时,数据丢失量小,甚至零丢失,但是,系统恢复速度慢,无法保持业务的连续性。
  4. 异地应用级容灾:即在异地建立一个与主系统相同的备用系统,备用系统与生产系统共同工作,承担系统的业务。这种类似于RAID1的容灾系统,能够提供很小的数据丢失量,系统恢复速度是最快的。但是,需要配置复杂的系统管理软件和专用的硬件,相对成本也是最高的。
无锡人口综合信息管理系统在原先硬件建设中实现了本地双机热备份,在一台服务器不能工作的情况下,将应用转向备用服务器,能够实现简单的容灾措施,但是无法应对重大型灾难。推荐采用应用级异地容灾措施即在异地也配置服务器和储存设备,实现数据与应用同时备份。
2.2 系统现状
2.2.1 系统拓扑
现有系统拓扑如下:
 
2.2.2 数据库服务器配置情况
无锡市人口综合信息管理系统的数据库服务器采用了一台 IBM P570 Power6小型机。根据数据库应用的重要性及持续性,并考虑服务器后期具有一定的扩展能力,当前配置为8核64位Power6芯片CPU、32G内存、2*146G硬盘、2*4口千兆网卡、2*光纤通道卡。为了保证系统安全稳定运行,2块内部硬盘采用RAID1模式,这样有效避免因为服务器内部有一块磁盘发现故障时,导致整个系统陷于瘫痪状态。基于小型机的高RAS(Reliability, Availability, Serviceability 高可靠性、高可用性、高服务性)特性,数据库用小型机配置2块4口千兆网卡,作为小型机和终端应用通信使用。2块光纤通道卡连接光纤存储,提供一定的冗余连接,提高整体的可用性和安全性。
(IBM P570详细情况参看IBM官方网站)
2.2.3 应用和分析报表服务器配置情况
无锡市人口综合信息管理系统的应用和分析报表服务器采用了两台半配 IBM P550 Power6小型机。具体配置为4核64位Power6芯片CPU、16G 内存、2*146硬盘、2*千兆网卡、2*HBA卡。
中间件安装在应用服务器上,做为 C/S/S或B/S/S结构中的业务逻辑处理层。根据市人口综合信息管理系统中间件服务器的并发用户数设计,同时应用服务器承担了大量的业务逻辑处理任务,故对其联机事务处理能力有很高的要求。为保障操作系统的可靠性,小型机2 块内置硬盘进行硬盘镜像保护。在服务器的通信方面,应用服务器配置了2块千兆网卡用于数据通信和业务连接,连接两台核心交换机,保障网络的冗余连接;配置2块4GB光纤通道卡,实现与光纤存储之间互联。
( IBM P550详细情况参看IBM官方网站)
2.2.4 前置/备份/漏洞扫描服务器配置情况
无锡市人口综合信息管理系统的前置 /备份/漏洞扫描服务器采用了多台DELL R710服务器。根据具体业务应用需求和实际工作压力分析,DELL R710服务器的具体配置为2*5506 CPU、8G内存、4*300硬盘、4*千兆网卡。所有服务器均运行WINDOWS SERVER系统,其中1台服务器负责备份软件和漏洞扫描软件的运行,其余为系统用与各部门对接前置服务器。服务器连接方式为双链路,接入2台核心交换机。
2.2.5 磁盘阵列存储和光纤交换机配置情况
无锡市人口综合信息管理系统的核心磁盘阵列配置了 SAN架构的光纤磁盘阵列EMC CX4-480(双控制器、16G缓存、8个FC接口、23块450GB 15K RPM光纤硬盘,存储管理软件及链路负载均衡软件);同时配置两台光纤交换机(16口4GB接口)连接数据库小型机和光纤磁盘阵列,组成SAN架构。
2.2.6 备份系统软硬件配置情况
无锡市人口综合信息管理系统的备份系统配置了 Symantec原厂备份软件(Netbackup);定时自动将数据备份到带光纤接口的磁带库DELL ML4000(LTO4驱动器、光纤接口、20盘LTO-4磁带、最大42槽位)上。
2.3 存在问题
1、所有数据都写入单台 EMC CX4-480磁盘阵列系统中,一旦其出现故障,整个运行系统将停止工作,存在单点故障的隐患;
2、所有应用除核心交换机、 IPS、应用服务器外均无冗余,一旦设备发生状况,将直接影响系统运行;
3、一旦发生数据意外丢失,将无法恢复至最终时间点;
4、备份系统数据备份及恢复时间较慢;
5、在主要的工作时间段,无法对数据库进行大型的操作,以免占用系统资源、降低系统性能。
2.4 需求分析
★ 机房建设
如遇断电、温度过高等情况都将造成整套系统的宕机威胁,所以一定层级的机房要求,可以保证设备的安全稳定运维。机房建设包括电源接入、网络改造、各种保护措施和机柜、设备安装等。
★ 网络系统
网络系统的建设是系统集成建设的重点内容,系统主应用需要网络的接入才能发挥作用,属于基础性建设。无锡市人口综合信息管理系统采用百兆政务外网接入,所以配套的灾备体系也必须满足百兆接入,以确保应用的网络需求。
★ 安全系统
灾备建设的初衷之一就是满足数据的安全保障要求,作为异地的备份系统,其拥有独立的网络 IP,全套的硬件设备,可视为一套独立的系统。虽然政务外网与互联网逻辑隔离,但是非物理隔离的措施都存在病毒***和恶意***等问题,所以备份系统必须配备相应的防御设备以确保安全。主系统采用IPS抵御外来威胁,备份系统相对安全需求低一些,采购主流中高端防火墙即可满足项目需求。
★ 硬件平台
由于是灾备体系建设,必须完整考虑原有项目的设计规划,充分利用已有硬件资源,做到已有系统的顺利扩展,保证业务的可靠、安全、快捷、平稳过渡。本次灾备中心的建设必须完成应用级建设要求,所以系统将提供包括应用和数据存储在内的完整服务,硬件至少包含应用和数据库两台服务器,以及保存信息用的存储系统,满足主系统的应用和数据备份要求。
3. 建设方案
3.1 总体方案
根据需求分析,结合原有硬件平台的设计规划,系统设计的结构图如下:
 
 
本次建设方案的具体内容包含以下几部分:
1.异地灾备机房建设
主要包括存放硬件的机柜安装、电源接入、百兆光纤接入等基础工作;
2.灾备硬件平台建设
主要包括至少一台用于抵御***和***的防火墙设备、一台内网互联使用的核心交换机、一台用于应用服务的服务器、一台用于提供数据库服务的服务器和一套存储数据用磁盘阵列的采购集成工作;
3.软件系统建设
包括信息中心主系统的软件修正、配置更改和灾备机房备用系统的架设、调整。
3.1.1 方案说明
按照建设要求,本次项目设计定位于应用级容灾备份,需要包含应用系统建设和数据备份建设两部分内容,故规划采用复制系统的方案。
信息中心的主存储系统为 EMC CX4-480EMC® CLARiiON® CX4, 该系列通过第四代 CLARiiON CX 存储平台在中端存储市场提供了业界领先的技术创新。灵活、可扩展的硬件设计和高级软件功能以独特方式结合起来,使采用 Intel Xeon 处理器的 EMC CLARiiON CX4 系列系统能够满足今天大中型企业不断增长的各种需要。通过创新性的技术(如闪存驱动器、UltraFlex™ 技术和 CLARiiON 虚拟资源调配),用户可以降低成本、能耗,并优化可用性和虚拟化。CX4 所有机型均预配置了光纤通道和 iSCSI 连接,允许用户为其特定的应用选择最佳连接技术。与上一代 CLARiiON 相比,CLARiiON CX4 的性能和规模提高了一倍,是领先的中端存储解决方案,可满足一系列需要。本次灾备机房的应用级容灾建设需要购置一台新存储来实现,考虑到原有硬件条件和容灾的要求,针对技术的先进性、系统的可靠性、可用性、管理的方便性及扩展性,确定本次实现应用级容灾方式依靠通过政务外网的IP方式传输数据。
具体内容为:
1.由于是异地的灾备建设,其两地距离超过 100公里,考虑成本投入等因素,放弃SAN层面的存储备份容灾方式,优先考虑选择基于IP的百兆政务外网作为传输介质满足互连的要求,应用服务器备份数据的实现方法。
2.数据的同步采用 Oracle企业版数据库中自带的Data Guard软件实现,保证信息中心和灾备机房主备系统的数据复制。
3.当发生应用层软故障或操作失误时,可通过容灾存储的自带功能,选择恢复到之前的多个恢复点,既实现了连续数据保护,也缓解了带库备份系统的压力。
4.灾备机房构建了整套的应用级备份系统,在主机房发生故障的情况下,可以在很短的时间内代替主系统提供服务,从而为业务在意外情况下的持续稳定运作提供良好的支撑。
5.为确保灾备机房备份系统和硬件设备的安全,配套使用硬件防火墙抵御外来的侵袭,保障备份系统正常稳定运作。
DATA GUARD介绍
DATA GUARD整体结构示意图
出于多个因素的综合考量,本次建设方案采用基于 IP网络异地使用DATA GUARD实时备份的方式。DATA GUARD软件是Oracle企业版数据库中自带的一套备份用软件,其最主要的功能是冗灾。当然根据配置的不同,DATA GUARD还可以具备以下特点:高可用、性能提升、数据保护以及故障恢复等。
DATA GUARD可以分为物理 STANDBY和逻辑STANDBY两种。二者的最大差别在于,物理STANDBY应用的是主库的归档日志,而逻辑STANDBY应用的是主库的归档日志中提取的SQL语句。由于二者这一点的区别,决定了物理STANDBY无论从逻辑结构和物理结构都是和主库保持一致,而逻辑STANDBY则只需保证逻辑结构一致,且逻辑STANDBY在应用SQL语句的时候,数据库可以处于打开的状态。
如果从 DATA GUARD的保护模式分,可以分为三种不同的保护模式:
保护最大化:这种模式的配置可以保证主库和备库的同步,任何情况下主库的损毁都不会导致已提交数据的丢失。如果主库和备库之间的网络出现问题,或者备库本身出现问题,都会导致主库停止数据处理。
可用最大化:这种模式和上面一种类似,也是会保证主库和备库的同步,区别在于,当网络或备库不可用时,主库仍然可以继续处理。
性能最大化:主库和备库是异步的。这种模式可能在主库出现损毁时,丢失一部分数据。但是这种模式对主库负荷最小,因此具有最好的性能。
一个 Data Guard环境可配置一个生产数据库和最多至9个备份数据库系统,生产和备份数据库之间通过Oracle Net技术互联,并且没有任何距离上的限制。
一、DATA GUARD的优点
1.Data Guard 同步传输对于 LAN,甚至对于 MAN(~300 英里/10 毫秒 RTT)都是可行的。
2.零数据丢失,只传输重做数据。
3.对主系统的吞吐量影响最小(在测试中小于 3%)。
4.异步传输对于所有类型的网络都可行。
5.异步模式下,在 WAN 上使用 SSH 压缩可使网络流量减少 35-60%。
6.转换可以在 1 分钟内完成,故障切换在短短的 15 秒内即可完成。
7.更适于 WAN,无需协议转换器,基于标准的 TCP/IP。
8.更好的数据保护,保持写顺序的一致性,避免逻辑损坏和物理损坏。
9.具有灵活性,底层存储器对供应商没有限制。
二、DATA GUARD实现方式
 
Data guard利用闪回数据增强 DR
上图是一个示例,表示一个系统的整体架构图,主机系统分别运行数据库系统、数据仓库系统等核心生产系统。备用数据库与主数据库之间是通过 IP网络实现数据备份的,起初备份时需要花一定时间,原始数据复制完毕后,再有新数据写入时,只需修改新日志,达到实时备份。
三、DATA GUARD的服务
1.重做传输服务控制重做数据从生产机传输到一个或多个备用库。
2.日志应用服务
生产库上通过 ARCH进程生成归档日志文件,然后传输到备用库,备用库再从归档日志中恢复数据
实时模式时,生产库上的操作通过 LGWR进程实时反映在备用库的备用日志文件中,备用库从备用日志文件实时恢复数据。
3.角色切换
主备库用户角色的切换。
四、与远程磁盘镜像技术比较
Data Guard和远程磁盘镜像技术的总体比较:
远程磁盘镜像技术是存储层的数据保护方案,对于 Oracle数据库而言,Oracle Data Guard提供了更有效、可行,更完备的数据库容灾方案。
以下是两种方案的总体比较:
 
异步远程磁盘镜像技术的潜在问题:
远程磁盘镜像技术可采用异步方式,达到降低网络延时、减轻对生产系统影响等目的。但用这种方式进行 Oracle数据库的镜像,却存在一个潜在问题:无法保证写操作顺序的一致性(write-order consistency),导致出现数据坏块的可能性增大。最坏情况,可能导致备份数据库无法打开。
而 Data Guard基于逻辑级,传输的是与业务逻辑完整性相关的日志文件。Data Guard是以日志文件为边界,会自动检验日志文件的完整性,并可进行断点日志文件的检查(log gap detection),通过FAL后台进程自动重传断点日志文件。因此,备份数据库的一致性会得到保证。
1 )网络传输量
网络传输量的大小直接关系到容灾方案实施的可行性。在原理上, Data Guard只是传输一份日志文件,而磁盘镜像技术将传输数据文件、联机日志、归档日志、控制文件等所有发生变化的文件。
2 )远程灾备
远程磁盘镜像技术由于受底层通信技术(光纤、 ESCON等)限制,一般都有距离限制,如几十或百公里,如果要在广域网实施远程磁盘镜像,则需要大量的网络中继和转发设备,这样,网络设备投入将大量增加,而且网络延时的增加,对生产系统的影响也将加大。
相比之下, Data Guard基于Oracle Net Services(即标准的TCP/IP协议) 传输数据。TCP/IP协议是ESCON之上的传输协议,由于在信息包转发、路由和拥塞控制等方面更为优化,同时TCP/IP与底层通信协议无关(以太网、ATM、SONET等),而且,TCP/IP可以并行地进行若干信息包的传输。因此,TCP/IP的效率更高、网络延时更低,对生产系统的影响也更小。
3 )数据保护能力分析
在各种故障中,故障率最高的是磁盘故障( Corruption)。一旦出现磁盘坏块,磁盘镜像技术将忠实地将这种错误传播到备份数据库的磁盘中,导致备份数据库无法使用。而由于Data Guard传输的是日志文件,而且传输之前对日志文件的完整性进行了校验,因此,不可能发生因系统磁盘出现物理坏块,或磁盘控制器故障等,将数据块写坏而导致备份数据库出现坏块的情况。
4 )投资回报率(ROI)分析
Data Guard软件对硬件没有特殊的要求,网络只要求 TCP/IP。备份数据库可以建立在相对低档的系统和廉价的磁盘阵列中。而磁盘镜像技术不仅需要单独购买昂贵的磁盘镜像软件,而且对硬件要求也很苛刻。
此外, Data Guard具有备份数据库的查询统计功能,而磁盘镜像技术建立的备份数据库在正常情况下处于闲置状态,只有在发生故障时,才能投入应用;为降低生产数据库的负载,Data Guard还可以将物理备份功能移植到备份数据库进行,备份数据库产生的物理备份数据,同样可用于生产数据库的恢复操作。
五、DATA GUARD高效灾备的亮点
Oracle Data Guard容灾方案是专为数据库备份而设计的,它提供了远程磁盘镜像技术所无法实现的功能,特别是在远程数据库备份过程中, Data Guard的优势更加明显。对于Oracle数据库远程异步备份而言,Data Guard则提供了更有效可行、成本更低的Oracle数据库灾备方案,而远程磁盘镜像技术却无法保证写操作顺序的一致性,导致数据坏块的可能性增大,甚至有可能使备份数据库无法打开。另外在网络资源占用上,Data Guard只传输相应DML语句的日志信息,而磁盘镜像技术传输交易所涉及的所有数据块及归档日志数据,其传输量是Data Guard的7倍。
Oracle Data Guard技术对网络的要求低,能实现远距离的高效灾备,而磁盘镜像技术对网络的要求极高。
更为关键的是,磁盘镜像技术将忠实地将源磁盘中的错误传播到备份数据库的磁盘中,导致备份数据库无法使用。而 Data Guard传输的是日志文件,而且传输之前对日志文件的完整性进行了校验,因此,不可能发生损坏数据块的现象,使得数据安全性得到提高。
3.1.3灾备实施方式
本次灾备建设虽然是应用级的灾备建设,但由于预算等原因,未采购配置负载均衡器等设备,无法达到自动切换的程度,还需要人为的第一时间干预。所以当主信息中心出现设备宕机或意外情况、自然灾害、人为因素等导致服务暂停的情况时,必须先由相关操作人员确认问题,及时调整系统,让灾备中心的系统发挥功效,接管主服务。
在网络层面而言,异地灾备中心的存储与信息中心存储在日常使用时处于热备份状态,所有主系统的工作数据和个案信息都在灾备中心拥有实时备份。但当工作人员切换服务时,必须及时通知所有用户更换访问地址,以实现应用灾备。
当灾备中心的灾备系统接管主服务后,应尽快组织工作人员开始信息中心系统的修复工作。信息中心恢复正常工作状态后,通过 Oracle的Data guard软件,实现灾备中心数据与主信息中心数据的同步。同步后再将应用切回主信息中心,恢复正常的工作模式。
3.1.4指标要求
1 )恢复时间目标( Recovery Time Objective,简称RTO)
指故障发生后,从 I/T 系统停机导致业务停顿时刻开始,到IT 系统恢复至可支持各部门运作、业务恢复运营之时,此两点之间的时间段称为RTO。一般而言,RTO 时间越短,即意味要求在更短的时间内恢复业务至可使用状态。虽然从管理的角度而言,RTO 时间越短越好,但是,这同时也意味着更多成本的投入。
按照方案的出发点,我们定义 RTO小于60分钟。
2 )恢复点目标( Recovery Point Objective,简称RPO)
是对系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。与 RTO 目标不同,RPO 目标的确定不是依赖于业务规模,而是取决于业务的性质和业务操作对数据的依赖程度。
按照方案的出发点,我们定义核心数据的 RPO近似于0,非核心系统的RPO小于30分钟。
3 )网络恢复目标( Network Recovery Objective,简称NRO)
是指当故障发生后切换网络所需的时间。需要注意的是,若用户不能通过网络连接来访问应用,则不能代表在系统层面的恢复工作已经全部完成。 NRO 包括启动另一条通信连接的时间、重新配置路由器和域名服务器(DNS)的时间、重新配置IP 地址的时间等。在备份系统中,网络接管的规划与数据的恢复同样重要,而且网络恢复的时间越短越好。
按照方案的出发点,我们定义 NRO小于60分钟。