目 录
随着企业IDC业务规模的快速发展,IDC机房的数量、规模在近几年都出现了大幅增长,数据中心机架/网络设备、制冷等配套设备、其他增值业务系统设备的数量也都在迅速增加,管理数据中心的这些设施变得日益复杂。现如今的数据中心经营决策,包括冷却系统、机架空间、网络可用性等等诸多因素,为收集和理解这些庞大的基础设施运营数据,并将有用的信息用于决策,提升数据中心基础设施管理水平势在必行。
企业IDC现网管理架构主要以专业为划分,各司其职,独立监控。多套IDC的监控系统各自独立运行;无法进行跨系统的数据分析,数据资源无法得到高效应用;无法快速对业务部门提供有效的决策依据,影响业务扩展效率;缺乏有效的客户需求分析工具,客户的个性化需求难以满足;运营管理面临着许多新的挑战,从外部和内部面临的挑战和需求分析如下:
对外而言,面对逐渐红海化的IDC市场,IDC发展竞争越发激烈。目前的监控体系,主要存在的问题有:客户SLA是否达成缺乏数据验证、客户个性化商业模式缺乏系统支撑、客户紧急需求缺乏及时决策基础等。
对内而言,企业IDC多个专业运维数据目前各自离散,维护效率亟待提升,主要存在的问题有:多部门协调管理,联合运维缺乏支撑、不同层级对系统视角和颗粒度的关注不同、传统的设备管理不能满足快速决策需要、系统杂繁,被动式维护响应时间长,风险大。
基于以上背景,企业需要建设一套IDC统一运管平台,作为综合的运营管理平台,实现“集中监控、集中运维、集中管理”服务全程自动化,以改善上述问题。
IDC统一运管平台通过监控、分析数据中心基础设施的运行信息,帮助数据中心管理者掌握数据中心基础设施运行情况,管理数据中心资产、资源,提高基础设施可用性、资源利用率。通过监控、分析数据中心基础设施的运行信息,分析、整合提炼成有用的数据,帮助数据中心运营团队更好地管理数据中心并优化性能。同时,通过建立自动化线上的IDC运维服务操作流程,有效提高移动公司在IDC领域“集中监控、集中运维、集中管理”服务全程的自动化水平。
- 企业“关于委托《IDC统一运营管理平台建设项目可行性研究报告》的函”;
- 企业信息系统运营部提供的《IDC统一运营管理应用需求分析书》;
- 企业网络部提供的《IDC统一运营管理应用需求书》;
- 企业网络部提供的《IDC运管平台客户出入机房等流程讨论会会议纪要》;
- 企业信息系统运营部提供的《IDC统一运管平台应用需求评审会会议纪要》;
- 企业相关部门提供的网络现状及业务需求等资料;
- 设计人员赴现场查勘收集的资料和建设单位和设备厂商提供的资料。
本文件为企业2018年IDC统一运营管理平台建设项目可行性研究报告。
- 总论
- 现状及需求分析
- 建设方案
- 工程建设进度
- 投资估算和资金筹措
- 建设项目对环境影响
- 劳动定员与人员培训
- 效益分析
IDC统一运营管理平台建设项目计划于2018年6月底投入运行。
根据本期工程总体方案,本期工程覆盖纳管的IDC机房将涵盖企业现有所有八个自有IDC机房局点,包括怒江、云桥、宁桥、杨浦、张江、松江、奉贤、临港IDC机房。
通过对接相关支撑系统,IDC统一运管平台本期将可以收敛获得以下基础数据:IDC的资源及容量全量信息;IDC机房设备、动力系统、空调系统、冷源系统等的性能数据;IDC机房的所有动力系统、空调系统、冷源系统等的告警或预警数据;IDC客户信息、客户经理信息、产品信息及业务订购信息等。
根据企业当前IDC总体布局与发展规划,结合IDC业务发展对机房运营管理的需求,顺应行业发展趋势,本期项目将建设一套IDC数据中心统一运管平台,平台基于DCIM数据中心基础设施管理系统产品,对数据中心内的基础设施、网络设备等进行全覆盖监控和综合展现,同时实现IDC运维部门对数据中心资产和资源等的智能化管理,促进企业IDC数据中心的高效运营与智能化管理。
本期工程将在企业融合资源池内部署一套IDC统一运管平台,纳管范围涵盖企业八个自有IDC机房:包括怒江、云桥、宁桥、杨浦、张江、松江、奉贤、临港IDC机房。通过新建系统,实现在统一的门户界面上展现IDC各项基础数据,全面呈现IDC机房运维情况,支撑IDC业务运营体系。
本期工程建设内容主要包括新购一套IDC统一运营管理平台定制软件,对综资系统、统一采集系统、EOMS系统、ESOP系统进行配套接口改造开发。
本期为新建系统项目,主要希望通过新建系统,对数据中心内的基础设施、网络设备等进行全覆盖监控,实现在统一的门户界面上展现IDC各项基础数据,全面呈现IDC机房运维情况,实现IDC运维部门对数据中心资产和资源等的智能化管理,提升运维操作的电子化和智能化水准,提升对IDC客户的服务响应效果,有效支撑IDC业务运营体系。
本期IDC统一运营管理平台建设的主要功能需求如下:
- 服务门户管理:支持面向业务人员、运维人员、代维人员、客户的IDC综合呈现门户,包括运营管理门户、信息展示门户以及客户服务门户。
- 运维管理:基于现场运维和服务工作,实现电子化和自动化管理,同时整合各类运维系统实现运维一体化管理。
- 运营管理:实现IDC运营综合分析,包括容量预警、事件管理、租用管理、业务管理及服务管理。
- 报表统计:所有统计数据可以通过图形界面进行展示,并可通过定制报表方式进行导出。
- 资源管理:各类系统对接,实现IDC资源的统一管理,包括全量资源管理、拓扑管理、客户管理、客户经理管理以及资源的统计和监控。
- 系统管理:实现系统用户以及角色权限的管理,同时记录系统的所有操作日志,便于查询管理,实现系统设备管理等功能。
本期IDC统一运营管理平台建设的主要性能需求如下:
- 并发用户数:应支持不少于100个客户端并发访问。
- 门户页面请求响应速度:在网络传输数据正常的前提下,小于3秒(自身系统处理时长,不含前端数据源系统的处理时长)。
- 前端集成各子系统告警数据到平台页面告警提示时间:在网络传输数据正常的前提下,小于5秒(自身系统处理时长,不含前端数据源系统的处理时长)。
- 系统控制指令响应时间:在网络传输数据正常的前提下,小于3秒。
- 告警准确性:准确率不小于99.99%,功能指令准确率100%。
- 数据存储要求:不少于1年。
1、通用原则
为保证全网简洁高效的运行,平衡流量流向分布,我们遵循高速链路设置原则和最少链路设置原则,并突出网络链路的轻载设计原则,对网络结构进行优化,对流量进行合理调整,网络结构设计在充分考虑并保证网络冗余的同时,尽量减少网络的改动,实现带宽的扩容和优化,网络拓扑设计则尽量保证路由器容量的负载均衡。IDC出口带宽扩容工程中遵循以下原则:
- 先进性: 网络设计中根据用户需要和网络发展趋势,采用的技术具有技术先进性,高起点建设适应大颗粒业务、电信级、能实现固定移动统一承载的IDC出口层,充分考虑未来新业务、新技术发展的需求情况;
- 高可用性:考虑IDC出口设备扩容比较频繁,尽量采用高带宽、高可扩展性的高性能数据中心交换机作为核心节点设备,同时,还要支持高性能的路由协议、QoS 能力以及高质量的通信线路;
- 高可靠性:网络系统必须具有容灾容错能力,保障在意外情况下系统能不间断工作;网络设备关键部件必须采用冗余设计,支持热插拔,消除单点故障;要求提供对网络设备资源及通信线路的备份,并且能够在系统的某个部分出现故障时迅速地进行主、备份资源切换;
- 开放性和标准性:要求网络设备必须是开放的,即是符合国际标准的网络设备,能够实现多厂家产品的互连;
- 可扩展性:网络系统要能够灵活地扩展。能够通过扩展支持将来的需要,能够通过产品升级,采用新的技术,或者是增加模块来扩展现有网络设备的功能。
可扩展性体现在以下几个方面:
- 业务的可扩展性;
- 端口的可扩展性;
- 中继速率的可扩展性;
- 网络设备容量的可扩展性。
- 安全性:网络的运行应该在一种可控方式下,以保证其安全性;应该尽可能地通过集中控制的机制实现网络的安全性;非授权人员应该不能进入网络之中,还要实现分层次的安全控制机制,根据具体用户的级别确定他们的访问权限;
- 可管理性:网络系统应该能够支持 SNMP、SNMPv2等,便于计算机管理人员通过网管软件随时监视网络的运行状况,一旦出现故障,可以自动报告出错位置和出错原因;新增网元应纳入IDC网管监控系统。
- 投资保护:合理利用原有设备,根据现网资源利用情况,进行拆闲补忙,保护原有的投资利益,节约投资。
2、软件开发通用原则
1)总体要求
系统遵循开放性、安全可靠性、先进性、高效性、易用性、可维护性和可扩展性等原则。
系统建设基于业界开放式标准,包括各种网络协议、硬件接口、数据库接口等,以保证系统的生命力,保护投资,体现良好的扩展性和互操作能力。
系统遵循简洁、易用、统一风格的中文客户界面,提供维护管理和实时监控功能,简化系统的使用和维护。
系统设计充分考虑扩展性,能够以多种方式支持系统的扩展,包括业务功能的增加,系统升级以及系统扩容等。
2)应用软件要求
实时性:系统在完成各类实时功能时必须保证系统反应的实时性,包括实时的故障监视、实时的性能分析和操作维护等。
安全性:系统有多级安全管理机制。
可靠性:避免由于单点故障影响整个系统的正常稳定运行,避免关键管理信息的丢失,必须具备相应系统容错能力。整个应用软件系统应能够连续7×24 小时不间断工作,应用软件中的任一模块更新、加载时,在不更新与上下模块的接口的前提下,不影响业务运转和服务。
可维护性:系统具有完善的自身监视和管理功能,必须具有故障诊断和故障定位功能。
可操作性:提供友好的中文的图形化操作界面和在线帮助。具有完整的操作权限管理功能和完善的系统安全机制,能够对每个操作员的每次操作有详细的记录,对每次非法操作产生告警;应用软件应具有较高的自动化程度,如:自动任务调度、自动故障告警、自动任务恢复等。
开放性:充分考虑与其他的系统的接口。
可扩充性:系统的软件设计采用模块化的体系结构,新功能的引入不影响原有的功能模块,必须具有良好的可扩展性。
规范性:遵循中国移动的相关规范。
3)数据库软件要求
系统中采用的数据库系统必须满足以下要求:
支持ANSI/ISO SQL-89、ANSI/ISO SQL-92 标准;
支持中文汉字内码,符合双字节编码;
支持主流厂商的硬件平台及操作系统平台;
具有良好的伸缩性;
支持主流的网络协议(如:TCP/IP、IPX/SPX、NETBIOS 及混合协议);
具有良好的开放性,支持异种数据库的互访;
具有支持并行操作所需的技术(如:多服务器协同技术、事务处理的完整性控制技术等);
支持联机事务处理(OLTP),要求能够实现数据的快速装载、高效的并发处理和交互式查询;
支持数据库存储加密及相应冗余控制;
支持联机存储和备份功能(如:磁带方式、磁盘方式);
具有强的容错能力、错误恢复能力、错误记录及预警能力;
具有避免数据库死锁的出现,一旦死锁能够自动解锁。
企业IDC统一运营管理平台将立足全网IDC统一管理需求,集中呈现、分析和管理全网IDC运维数据和相关流程。平台侧重于对全网IDC资源、性能、服务水平的整体把握,接收各专业网管、综合资源管理系统、集中故障平台等传送的必要的资源、性能、告警、客户业务信息等数据,在此基础上实现统一的呈现和分析。各项基础功能仍由各专业网管、综合资源管理系统、集中故障平台等负责。
本期IDC统一运营管理平台将采用集中一套的方式建设、部署,与现有IDC运维支撑体系对接,获取资源、资产、容量、能耗、性能、业务、运维等方面的数据,实现对IDC运维、运营的统一管理。
企业IDC统一运营管理平台功能架构示意如下:
3.4技术架构
3.4.1容器+微服务架构
本系统软件提供商如能够基于容器进行部署并采用微服务架构进行开发,将在后续招标选择中处于优势地位。
系统构建需基于虚拟化、集中管理、分布式计算和自动调度的云架构,能够实现业务的快速部署和灵活应用,并采用分布式弹性架构,支持应用的水平线性扩展。
系统需具备进行容器级、服务级云化的演进能力:容器将由移动公司融合云资源池提供虚拟机资源;系统相关的中间件由厂家自行提供并部署(包括redis,数据库,mq等);通过容器资源调度框架来实现容器资源的调度和管理。
系统需具备面向微服务架构进行设计的能力,将多种功能混合的模块,拆分重构为业务单一、高内聚的微服务应用,并支撑业务服务能力集群和容器化部署。
系统需支持引入“微服务管控平台”:通过“微服务管控平台”对已经微服务化的业务服务进行治理和编排。服务的治理和编排包括:微服务的接入、注册、发布、依赖关系配置、服务调用链跟踪等。
3.4.2微信端技术架构
本期门户系统除实现传统WEB页面外,还需要基于微信端实现门户服务,页面展现借助微信实现,IDC统一运管平台需实现和微信平台的交互。
1. 系统需提供微信端的服务门户支撑能力,功能包含:信息推介、运营服务能力展现、流程审批、自助报障、二维码认证、客户服务请求;
2. 实施时需申请DCIM系统微信企业公众号,并选择开发模式后提供给系统使用;
3. 系统需开发实现微信门户界面,与微信用户进行各类功能数据交互;
4. 由微服务框架提供的业务服务群(如不采用微服务框架,则由应用层各功能模块)提供前端门户需要的数据支撑。
系统必须具备良好的可视化功能,并通过门户进行体现。可视化功能是指系统在具备统一KPI抽取、统一数据格式、较强的数据管理功能的基础上,能够将各种指标和数据根据要求灵活、直观、便捷地进行界面展示。
本期服务门户需支持WEB、手机微信两种门户方式。要求门户界面要以菜单方式展现功能选择,尤其手机微信门户,在手机页面底部需具备按钮式菜单方式选择功能,不可仅以简单消息列表方式展现。
门户的可视化功能需要符合以下非功能性要求:
- 展现形式模块化
系统可根据不同的场景与指标展现模式提供模块化展现形式(如表格,图形,曲线等),界面直观。
- 可扩展性界面设计
界面设计易于改造,具备较强的可扩展性和可配置性。
具备定制仪表盘,视图展现支持,包括数据推送,场景触发,权限控制等。
- 具备易用性、易管理性、易维护性
系统应具有友好的用户界面,操作简便高效。对系统配置、流程控制模式、业务规则设置等保持一定的灵活性,方便维护和管理。
系统应采用全中文界面,图形化设计,可自行组态实时直观显示设备的运行数据和运行状态;支持界面的矢量缩放,在大屏、PC客户端等不同显示界面可实现分辨率自适应,实现无极缩放,不可出现分辨率不清晰、变形或者锯齿线条。
- 具备灵活的展示功能
系统可以根据不同的用途(日常/参观/演练/应急等),采用多种模式(包括但不限于操作人员模式和大屏展示模式)设计对应的可视化场景,从不同的角度进行展示。
功能概述:面向管理人员和专业人员的运营管理门户。
- 集中监控模块
从健康度、可用性等方面对各IDC节点的整体运行情况进行展现和分析,关注IDC机房整体运行情况、业务容量规划,帮助IDC运维管理人员保障IDC业务稳定持续地开展。
实时监控各IDC节点的工作状态,分析发现IDC节点的重要设备告警、环境热点等异常情况,并借助端到端的系统拓扑帮助节点运维人员准确评估业务影响范围,提升整体运维效率。
- 数据来源
(1)综资系统:
接口方式:ESB;
数据内容:IDC机房机架容量,IDC机房设备端口容量,数据中心或者机楼级别的带宽容量,IDC IP地址容量。
(2)集中故障管理平台:
接口方式:MQ;
数据内容:告警流水号、发生时间、发生次数、告警对象名称、IP地址、告警标题、告警级别、告警描述等。
(3)统一采集系统:
接口方式:ESB;
数据内容:
表 41统计采集系统可提供数据列表
项目 | 具体指标 |
空调系统 | 送风口温度 |
空调系统 | 回风口温度 |
空调系统 | 房间温度 |
空调系统 | 送风口湿度 |
空调系统 | 回风口湿度 |
空调系统 | 房间湿度 |
空调系统 | 相对湿度 |
空调系统 | 压缩机运行时间 |
空调系统 | 风系统运行时间 |
动力系统 | 电压 |
动力系统 | 频率 |
动力系统 | 功率 |
动力系统 | 电池 |
动力系统 | 电流 |
不间断电源 | 电量 |
网络设备 | CPU |
网络设备 | 内存 |
网络设备 | 温度 |
网络设备 | 电源 |
网络设备 | 端口配置状态 |
网络设备 | 端口运行状态 |
网络设备 | 端口带宽 |
网络设备 | 端口流出流量 |
网络设备 | 端口流入流量 |
防火墙 | CPU |
防火墙 | TCP连接数 |
防火墙 | 丢包 |
防火墙 | 内存 |
主机 | CPU |
主机 | 内存 |
主机 | 风扇 |
主机 | 温度 |
主机 | 逻辑盘资源 |
主机 | 主机BPS流量 |
主机 | 主机PPS流量 |
主机 | 虚拟内存 |
主机 | TCP连接数 |
主机 | 上连网络端口 |
主机 | 网络端口 |
主机 | 磁盘空间 |
主机 | 进程 |
主机 | 流量 |
- 界面呈现要素
- 以上海地图为背景,IDC机房以小图标的形式分布在上海地图上,地图上包含以下几个页面的切换按钮:
- 机房视图页面
- 网络监控视图
- 资源管理视图
- 故障告警视图
- 点击小图标可以切换到“机房视图页面”,页面包含以下元素:
- 机房列表
- 楼层
- 机柜位置
- 设备告警信息
- 设备数量
- 点击可以切换到“网络监控视图”,页面元素包含:
- 实时告警流水窗,字段包括:告警流水号、发生时间、发生次数、告警对象名称、IP地址、告警标题、告警级别、告警描述等
- 告警统计:按区域、按数据中心、按客户
- 点击可以切换到“空调监控视图”,页面元素包含:
- 空调位置
- 空调告警
- 送风口温度
- 回风口温度
- 房间温度
- 送风口湿度
- 回风口湿度
- 房间湿度
- 相对湿度
- 压缩机运行时间
- 风系统运行时间
- 点击可以切换到“资源管理视图”,页面元素包含:
- 机房资源平面图
- 资源树图:按区域、设备类型、厂家等维度
- 资源详情页面:资源属性、性能指标、告警信息