成都市第五人民医院双活数据中心建设方案

建设目标:

在医院新老机房之间构建一套基于双活技术的数据中心架构,使得相应的计算、网络和存储资源能够以抽象化弹性资源池的方式对现有及未来的应用业务提供高可用,高效率,高敏捷性的快速服务支撑平台,满足业务系统快速上线与降低信息系统基础架构管理复杂性的要求。

实现功能:

双活数据中心将实现以下功能:

通过虚拟化功能实现在线迁移正在运行的虚拟机应用到不同的物理服务器,避免计划性停机,保证业务连续性。

通过存储虚拟化功能实现在线的迁移正在运行的虚拟机应用到不同的物理存储位置,避免存储维护的计划性停机,保证业务连续性。

对整个数据中心的应用资源构建资源池分配,确保平台运行各应用尤其是核心应用的计算资源和IO资源得到有效的保障,保证关键性业务充分的计算资源。

对整体数据中心虚拟化集群环境实现进行动态的资源池动态负载均衡的计算资源在线自动管理,以及数据中心基础架构的弹性扩展。

实现虚拟机动态负载均衡的高可用环境,提供应用的高可用性。

虚拟机整合备份,实现数据备份以及数据消重。

虚拟机集群环境的集中统一管理和监控,通过虚拟化环境延长软硬件的生存周期,确保降低总体拥有成本TCO,提高投资回报率。

双活的数据中心存储架构,两个机房中任何主机、交换机、存储发生故障时,医院的业务不会受到任何的影响。

一、 双活数据中心建设方案——网络部分

本次双活数据中心建设主要是对现有的核心网络部分做相应的改造,以满足整个数据中心IP网络及存储网络的需要。整个网络部分改造分为链路和设备两大部分。

1、链路改造规划

 

如上图所示,改造后的网络链路采用汇聚层双链路上联至核心的架构,每个区域的汇聚交换机均通过千兆或万兆光链路链接至核心交换机;两台核心交换机通过万兆双链路互联。同时在新老机房设置独立的万兆级服务器接入交换机,供服务器万兆接入使用。

在存储方面,在新老机房之间设置六对裸光纤,其中两对用于网络互连,两对用于连接服务器的SAN交换机互连,两对用于双活存储内部互连。这六对光纤分别以三三方式分布在两根不同波纹管中。

整个链路改造清单如下:

序号 链路起点 链路终点 链路类型 光纤数量(对)

1 2号楼汇聚交换机 新机房 千兆光纤 1

2 2号楼汇聚交换机 老机房 千兆光纤 1

3 8号楼POE交换机 新机房 千兆光纤 1

4 8号楼汇聚交换机 新机房 千兆光纤 1

5 7号楼汇聚交换机 新机房 千兆光纤 1

6 肿瘤科汇聚交换机 新机房 千兆光纤 1

7 供应科汇聚交换机 新机房 千兆光纤 1

8 行政楼汇聚交换机 新机房 千兆光纤 1

9 11号楼汇聚交换机 新机房 千兆光纤 1

10 老机房 新机房 万兆光纤 6

11 新机房服务器接入交换机 老机房 万兆光纤 1

12 老机房服务器接入交换机 新机房 万兆光纤 1

13 新机房服务器接入交换机 新机房 万兆光纤 1

14 老机房服务器接入交换机 老机房 万兆光纤 1

2.设备改造规划

设备改造方面,主要是对现有网络中的核心层及汇聚层设备做相应的调整,以满足双活数据中心建设的需要。

核心层改造

思科6506核心交换机

升级交换机软件版本,使其支持思科核心虚拟化(VSS)功能

将一台6506交换机移至老中心机房,作为老中心机房核心交换机

两台核心之间采用双万兆链路互联,并启用VSS功能

思科4506核心交换机

将原有两台4506核心交换机上的主控引擎安装在一台交换机上

将新大楼所有交换机链路连接至这台4506交换机

4506交换机采用双千兆链路连接新老机房的6506核心交换机

同时,在新老机房各增加两台万兆服务器接入交换机互为冗余,用于服务器的连接。接入交换机通过双万兆链路连接至核心交换机

汇聚层改造

各区域汇聚交换机增加相应数量的光纤模块,双千兆链路上联至核心交换机。


二、双活数据中心设计方案——存储部分

1、方案规划

为了进一步保障业务连续性,提高生产安全级别,需要对目前的数据进行容灾,虚拟化整合,保证关键业务即使有任意存储系统出现故障,也不会出现业务停顿和数据丢失,实现更高的生产安全保障。

遵循“持续数据保护数据级容灾、存储双活部署,业务持续运行”的目标进行规划实施。

2、数据容灾方案选择

目前容灾技术主要有以下方式:

1. 基于主机的数据复制技术:与存储设备无关,能够保证两地数据完全一致,对带宽要求高,对不同的操作系统,需要专用的软件;需要管理多个节点、需占用主机的处理能力。

2. 基于数据库的复制技术:灵活、方便、对带宽要求低,只复制数据库数据,适用范围窄,切换回切管理复杂。

3. 基于存储的数据复制技术:与主机无关,支持异构平台环境,带宽要求高,主备端需要使用同样的磁盘存储系统,在远程情况下需要配置专用的通道延伸器,成本较高。

4. 基于CDP的数据复制技术:任意的存储设备之间进行复制,通过同、异步机制对point-in-time p_w_picpaths 进行复制,确保数据的一致性,可点对点,或多点对一点进行复制,具备带宽压缩和重删技术,可实现窄带宽环境下的数据远程容灾。

数据容灾方案

通过前期认真分析调研和专家讨论,对于医院的数据容灾方案建议统一规划、分步骤实施,其拓扑图如下:

 

1、 在中心机房部署2台存储,通过双活引擎实现2台存储间的数据镜像,以避免存储设备的单点故障

2、 系统中还将部署连续数据保护设备,避免因为人为或者其他因素导致的数据误删除等故障

通过以上的系统建设,在院内的中心机房将会实现系统层面的高可用,同时对于数据安全保护也能达到较高程度。

 

在本地部署1套新存储和一套存储虚拟化引擎,以及CDP数据保护系统,实现本地存储的高可用性,保证任何的存储故障均不会影响业务的连续性,本地数据中心可实现数据的RPO和RTO均等于0;原有存储阵列搬迁到异地的数据中心,并部署1套存储虚拟化设备,实现资源的虚拟化管理;利用两端虚拟化引擎的IO拆分器,实现两地数据中心数据同步和持续式数据保护,有效防止物理和逻辑错误,可有效保障数据安全性,可用性和完整性。

3、网络要求

两个机房间链路延迟要求在50毫秒以内,以便达到数据镜像要求。

4、方案总结

通过该容灾项目实施后,可实现以下目标:

1) 优化后可以实现数据的多层次保护,除有本地的高可用外,还有远程的容灾数据,可有效防止遇到的各种物理和逻辑灾难。

2) 大幅改善目前基础架构中数据备份和恢复的难题,提升效率,实现数据的每天备份保存以及数据一步操作恢复。

3) 实现数据的持续保护容灾,容灾数据即时可用,无任何恢复窗口要求,且可实现持续的逻辑防错,实现基于每个IO的数据回滚操作,有效降低因逻辑错误导致的数据丢失。

4) 构建存储的高可用性,实现本地的任何一套磁盘阵列故障,均不影响系统的业务运行,形成存储的双活运行。

5) 基于虚拟化平台,构建应用的双活部署,实现双活的数据中心,形成内部的私有云架构,无缝切换到云计算环境。

5、新增存储数据迁移

   医院原有的数据全部保存在FC-SAN架构的数台IBM存储中,故本次数据迁移将直接采用新设备的数据迁移功能来进行迁移。

三、双活数据中心建设方案——服务器虚拟化部分

虚拟化技术的引入大大减少了需要维护和管理的设备,如服务器、交换机、机架、网线、UPS、空调等。原先设备可以根据制度进行折旧报废、或者利旧更新,使得IT管理人员有了更多的选择。虚拟化可以提高资源利用率,降低硬件采购成本,更加节能和节省空间,让整个数据中心更加灵活。

服务器虚拟化后,我们搭建了虚拟化集群,并统一进行管理。原有的服务器设备仍然可以正常运行,并且与虚拟化服务器融合在一起。

随着虚拟化的不断应用,可以不断动态地增加虚拟化集群的规模,搭建更健康的IT体系架构。客户端方面,延续了原先的访问模式,对于虚拟服务器的数据交互等操作,等同于原先传统物理服务器的的访问模式,不会对业务系统造成任何不利影响。

1、方案资源规划

计算资源规划

虚拟机上运行着为各个用户和整个业务线提供支持的应用与服务,其中有很多都是关键业务应用,因此,用户必须正确设计、调配和管理虚拟机,以确保这些应用与服务能够高效运行。

目前设计为两个机房均各采用3台新购服务器用于虚拟化计算资源使用,HIS系统RAC分别部署于2台新购服务器上,LIS、PACS服务器仍暂保留原物理机RAC不变。

存储资源规划

正确的存储设计对组织实现其业务目标有着积极的影响,可以为性能良好的虚拟数据中心奠定一定的基础。它可以保护数据免受恶意或者意外破坏的影响,同时防止未经授权的用户访问数据。存储设计必须经过合理优化,以满足应用、服务、管理员和用户的多样性需求。

存储资源规划的目标是战略性地协调业务应用与存储基础架构,以降低成本、改善性能、提高可用性、提供安全性,以及增强功能,同时将应用数据分配到相应的存储层。

根据医院的实际环境,对存储资源进行整体规划,包括共享存储逻辑规划,存储空间规划,存储I/O控制规划,存储分层规划等。

共享存储逻辑规划

考虑采用本地存储将无法形成整个虚拟化集群资源池,因此无法有效地使用虚拟化环境的高可用,灵活配置等功能。购置或利用现有的存储交换网络SAN网络,并新增磁盘阵列作为共享SAN存储,同时做好相应的设备(SANHBA卡、交换机等)布线、空间、场地布局等相应的规划。

在设计存储架构时应该充分考虑到冗余和性能,因此存储架构的选择根据国家和各省级数据中心整体应用对存储的IOPS和吞吐量的需求进行规划,涉及到端到端的主机适配器选择、控制器和端口数量选择以及磁盘数量和RAID方式选择等。

确保每个主机内虚拟机并发IO队列长度与HBA适配卡设置保持一致。

底层LUN的需求根据实际虚拟机应用对存储IOPS的实际需求进行规划。

根据应用的需要设置LUN的RAID结构,如对于随机读写的数据库如Oracle、SQL数据库,建议在LUN级别采用RAID10结构,对于数据库日志通常为连续写或恢复时连续读,建议在LUN级别采用RAID5结构。

对于IO密集型的应用尽量采用单独的虚拟文件系统存储,避免在存储端与其他应用产生IO争用。

多个虚拟机共用一个数据存储或者多个主机共享一个数据存储时,可以启用存储队列QoS确保核心应用的延时在可控范围以及对数据存储读写的优先级。

通常情况下1~2TB的LUN大小具有较好的性能和可管理性。

磁盘阵列的选择应该满足整个虚拟化环境最大IOPS的吞吐量需求,并配置足够的存储处理器、缓存和端口数。

对于双活ALUA磁盘阵列(非双活磁盘阵列),为了防止链路抖动,对于每个LUN在同一时间配置只有一个虚拟服务器通过一个存储处理器进行访问,这就需要在多路径策略选择时设置为MRU(最近使用策略),该策略可以保证只有在某个路径故障时才启用另一个存储处理器连接LUN。


存储空间规划

医院采用如下的存储配置。

项目 说明

存储类型 Fibre Channel SAN(双活)

存储处理器个数 4 (冗余)

交换机个数

每个主机上每个交换机的端口数 4 (冗余,每中心2台)

2(冗余)

LUN大小 1TB

LUN总数 根据总量确定

每个LUN上的文件系统数据存储数 1

存储配置建议

存储分层规划

每个存储层具有不同的性能、容量和可用性特征,只要不是每个应用都需要昂贵、高性能、高度可用的存储,设计不同的存储层将十分经济高效。

我们所做的存储分层规划如下所示。


层 接口 应用 速度 RAID 磁盘数 注释

1 光纤通道 - HIS、LIS、RIS系统数据库

- 医院其他业务系统 10K RPM 5 24 共计约15T左右容量

2 光纤通道 - PACS系统图像数据

- 文献系统数据 7.5K RPM 5 24 共计约50T左右容量

存储分层实现

数据存储群集规划

数据存储以及与数据存储群集关联的主机必须符合特定要求,才能成功使用数据存储群集功能。

医院采用如下数据存储集群规划。

集群名 存储分布式资源调度 自动化 是否启动 I/O Metric 空间使用率 I/O 延迟

DataClusters-W/O 启用 全自动化 是 85% 15ms

DataClusters-W 启用 未自动化 是 85% 15ms

数据存储集群设计

2、 实施效果

医院实施虚拟化解决方案后,将改变现有的IT运行模式,达到以下效果:


项目 传统物理机架构 虚拟架构

CPU资源利用率 10% 60%

内存利用率 25% 75%

网络带宽利用率 30% 70%

计划停机升级时间 小时 无停机时间

意外宕机时间 若干小时(不可控) 无宕机时间

存储迁移时间 天 小时

系统恢复时间 小时 分钟

单点故障 有 无

HA高可用集群功能 无 内置

容错服务器功能 无 内置

动态资源优化 无 内置

部署操作系统时间 小时 分钟

升级硬件方式 停机升级 业务自动迁移

早期应用兼容 无 内置

补丁管理 第三方 内置


四、双活数据中心建设方案——灾备部分

双活数据中心的灾备设计,主要是考虑整个双活数据中心中的数据灾备。根据用户现有数据中心情况,本次灾备中心将利用用户原有的存储阵列来实现数据实时灾备。