数据中心监控管理系统设计
 
3.1 引言
数据中心经历了四个功能阶段的发展和演进,从早期的“数据存储中心”阶段,经过“数据处理中心”和“数据应用中心”两个阶段,如今已经进入“数据运营服务中心”阶段。现阶段的数据中心已经成为绝大部分企业或组织满足基本业务运营和实现业务战略的不可或缺的一部分。简单的说,无论你是什么行业,传统制造业,还是新兴服务业,你的数据中心已经紧紧地和你的主业捆绑在一起了。数据中心的运行状况、规划发展直接影响着企业或组织的业务开发和业务运营。
依据基础设施在数据中心的逻辑位置(如图1),数据中心的基础设施的运行状态也是反映数据中心运行状况的关键面之一。 国内外数据中心建设规范 要求 数据中心基础设施 进行 监控;目的是确保数据中心基础设施运行状态满足数据中心所支撑和服务的各种应用系统正常运营和业务连续。如果由于数据中心基础设施故障造成数据中心发生瘫痪,将造成机构业务停顿。近几年,银行、保险、证券、民航等行业相继出现了一些数据中心故障,造成了很大的社会影响和经济损失。
                              图1:基础实施在数据中心架构中的定位
数据中心基础设施监控管理系统是一个以计算机软件技术为基础,利用网络技术、数据库技术、通信技术、嵌入式技术、工业自动控制技术、新型传感技术等构成的专业化、自动化、智能化的综合监控管理系统。该系统可实时收集各种被监控设备的运行参数、工作状态及告警信息、能对智能型和非智能型的设备进行监控,准确的实现遥信、遥调、遥控及遥调等功能,确保数据中心各种基础设施运行正常和快速恢复。另外,在设施监控的基础上,能够为IT服务管理提供基础数据和流程支持。
本文 主要描述一般数据中心基础设施监控管理系统的建设目标、设计原则、监控范围、软硬件架构、系统组成和功能,以及监控管理系统关键技术等。
 
3.2设计目标
数据中心基础设施的监控工作是数据中心运维管理工作的一个既基础又核心的内容,这是因为一方面基础设施为数据中心运维提供基本的和底层的物理环境资源保障,另一方面,对基础设施运行的监控数据和监控信息将成为数据中心服务管理(ITSM)的某些流程的输入(如:ITIL事件管理、容量管理等)。因此,站在IT服务的高度,对基础设施监控系统进行设计是非常必要的。
(一)设计目标
      设计目标来源于对用户的战略性需求和当前使用需求的平衡。不同的客户在设计目标上存在差异。确定设计目标,与其说是一个技术问题,不如说是一个管理决策问题。但是一般来讲,首先应该紧紧抓住用户面临的问题和迫切需求,确立它的最低建设(设计)目标。
根据我的经验,以下几点应该作为基础设施监控管理系统的最低设计目标:
(1)     能够对所有数据中心机房的基础设施提供实时的状态监测
要确保监控覆盖范围满足数据中心管理的要求,尽可能地全覆盖对所有支持企业或组织业务连续运行的动力、环境等系统的在线实时监测。
(2)     最大可能地降低人工监控和管理引入漏检和误报的风险
    最好在监控系统上线后,人工现场监测操作从常态工作转变成非常态工作,例如:只是人工(维护人员或设备厂商)定期(月/季度)现场巡(抽)检。同时,监控事件以自动化的方式通知(分派),杜绝人工误报和延误处理。
(3)     提供一个监测-控制(管控)-再监测的闭环管理
    监测不是目的,也不是监控系统的运行终点。当被监控对象处于非正常状态时,干预控制(人工或系统联动)是必须的。同时,干预控制的有效性和结果,也必须通过再监测来判断。这是一个闭环管理的过程,系统应该满足。例如:空调系统的监控。
(4)     相对提高运维团队的工作效率
数据中心的人力资源配备在绝大多数企业或组织从来都是“捉襟见肘”的。因为他“历史上”不是一线业务部门,不直接创造企业价值和利润。所以,常常面临“事多人少”的工作局面。采用集中监控管理、远程监控管理、无人值守、自动巡检等技术,可以相对地提高基础设施维护人员的工作效率。这一点是最得人心的项目收益。
(5)     能够记录被监控对象的历史运行数据
历史数据的价值之一就像病人的既往病例,它为新的问题解决提供参考。另外一方面,它可以“还原真相”,是系统安全审计的基本要求。这个设计目标将会带出大数据存储、处理与访问的问题。
(6)     定义和报告被监控对象乃至整个数据中心基础设施的运行状态指标和健康指标
数据中心的基础设施包括的子系统多,设备种类多,如果不能事先定义好(或者是可定义的)监控指标和健康指标,那么,维护人员一定会被淹没在废数据的海洋,无法准确判断基础实施的整体运行状态。
在数据中心基础设施的生命周期里,基础设施的健康指标应该被定义(比如:平均设备使用年限、平均设备故障覆盖率等等),以此来量化衡量基础设施的剩余使用能力。
(7)     最大可能地预测被监控对象的运行趋势,预防问题发生
    大家可以想见,一旦数据中心基础设施出现重大故障,企业或组织的业务必然马上受到影响甚至中断,损失即刻发生。(2011年国内某保险公司因为供电系统问题,导致业务停止,损失约3个亿)。所以,监控系统如果能够根据被监控对象的历史运行情况,推演问题趋势,就可以提前采取措施排除问题隐患。从这个意义上看,最有价值的监控系统就是可以预防问题发生的监控系统。
(8)     提供基础设施突发问题的预案
    现实中问题总会发生,哪怕等上几年!所以,为你的监控系统买个“保险”,开发各种问题处理预案。
(9)     监控系统自身无障碍运行
    这个不说了,就像交通电子眼一旦坏了,怎么知道谁闯了红灯?
 另外,近年来,随着数据中心行业的蓬勃发展和面向IT 服务的功能转变,机房数量剧增、规模扩大、结构更加复杂、监控业务增长,新的监控管理需求不断出现,因此,新一代监控管理系统还应该把以下几点作为设计目标:
(10) 满足数据中心快速扩容的要求
(11) 满足跨区域联网监控的要求
(12) 满足分级分区域管理的要求
(13) 满足异地灾备的要求
(14) 能够与数据中心其他信息系统集成
与数据中心资产管理系统的集成,或者与ITIL框架下CMDB、知识管理系统的集成。与ITIL框架下服务运维模块中的问题管理的集成。与数据中心统一的身份认证系统集成。等等。
(15) 能够对数据中心基础设施进行科学评价
在对基础设施监控的基础上,进一步对其等级和持续可用性进行评价,作为数据中心基础设施维护的依据。比如:数据中心能耗评估。通过监控系统采集的用电量计算电能使用效率PUE(Power Usage Effectiveness)。再比如:成本平均。