民生银行马坡数据中心基础设施Uptime M&O运营管理体系建立与实施

最新推荐文章于 2024-03-05 14:01:25 发布

数据中心运维管理

最新推荐文章于 2024-03-05 14:01:25 发布

阅读量3.4k

点赞数 1

关于M&O

2008年我行开始筹划建设马坡数据中心，机房管理中心团队参与了整个数据中心从需求分析到运维管理的全生命周期的过程。数据中心的全生命周期包含了需求分析、规划设计、施工安装、测试验收、运维管理等环节。运维管理是最后一环，也是历时最长的一环，所谓“三分建设，七分管理”也正是如此，从项目开始运维需求就落实到了设计和实施中，工作范围涵盖数据中心全生命周期，是通过科学运维管理，实现为我行业务提供数据信息支持，实现我行发展目标的过程。

Uptime Institute的Management & Operation基础设施运营管理体系是国际数据中心行业权威认证体系，是用来评估数据中心基础设施运营管理的综合指标。Uptime M&O体系提供了数据中心基础设施运维的方法论及最佳实践。Uptime M&O体系反映了人员配置、维护、培训和操作的整体严密性等方面的管理决策。Uptime M&O体系与ITIL（ISO20000）等标准都包含了（事件、变更、问题等）IT服务的典型管理流程，但M&O更专注于基础设施的管理流程，着重关注数据中心基础设施技术层面的严谨的维护政策、操作流程、计划管理程序、人员组织等运营要素。

随着我行业务的飞速发展和对数据需求的不断提高，我行数据中心IT和基础设施的运营与管理也面临着更大的压力，在实现高可用性、高连续性的同时还需兼顾运营成本与效率。因此，2018年我行引入了Uptime M&O数据中心基础设施运营管理体系。该体系提供了数据中心基础设施相关的指导和框架基础，也是推动实施数据中心有效运营管理的最佳实践。本文将按照体系框架对我行MO运营管理体系的建立与实施进行逐一介绍。

M&O体系的建立与实施

我行M&O体系的建立与实施项目从2018年月开始，历经近一年的时间，以Uptime M&O标准为依据，结合我行自身多年的数据中心运维管理实践经验，通过差距分析、专业体系构建、新体系试运行和审计优化升级等方式不断探索、建设，打造了一套科学化、规范化、标准化、流程化的数据中心基础设施运维管理体系。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

1、M&O框架

M&O的体系框架包含人员组织、维护政策、计划协调管理、培训以及运行工况5个大的条目，5大条目下又细分了20小项和54条体系内容，基本涵盖了数据中心基础设施运营管理的所有内容、领域与细节。

2、人员和组织（Staffing and Organization）

1）人员配置Staffing

明确员工、外包运维团队及供应商的组织架构、职责分工及专业划分，明确所有岗位职责、任职要求、工作清单、培训要求。明确各单位间的关系、接口与报告机制。通过对组织架构、岗位职责、任职要求、各单位接口及报告机制的明确定义，确保数据中心运营管理各项工作的有效实施。
建立员工的全专业（电气、暖通、弱电、建筑与环境）覆盖机制，并为每一个岗位配置冗余负责人。确保了数据中心基础设施7*24小时的人员保障及各项工作的有效实施。
建立排班管理制度，建立工时统计机制，严格限制一线操作人员工作超时率，降低了由于疲劳产生的操作失误的风险。

2）人员资格Qualification

所有员工、外包团队均取得所辖基础设施的操作资质证照；通过SLA要求供应商服务人员具备相应操作资质及证照；员工、外包团队及供应商的资质证照统一管理存档，定期核查复证。规范了数据中心基础设施各岗位人员的资质证照及相关制度要求，确保每个专业岗位人员的资质满足该岗位的运维管理需要。此外，为更熟悉Uptime机房设计建造与运维管理理念，机房管理中心团队半数以上的员工获得了Uptime Tier的认证专家证书。

建立员工、外包运维团队及供应商技术培训与考核机制，要求所有数据中心操作人员均具备相关资质、经验以及经过必要的培训与考核。培训考核记录追踪到个人。确保所有在数据中心从事基础设施工作人员的专业技术、运维管理流程、安全事项、应急流程及操作等知识与流程规范不断的更新与积累

3）组织 Organization

建立覆盖所有数据中心运维活动的职责矩阵，明确了数据中心每项活动中所有涉及部门及岗位（机房、外包、基建、IT运行、安保、消防、保洁）的职责（执行、支持、知晓、审批）及对应关系。

建立机房管理中心周例会制度，回顾总结周工作完成情况；跟踪故障处理进度、故障处理方法、分析总结经验教训及优化措施；统一落实下周工作计划和安排；对事件、变更、问题、风险等流程进行追踪与分析；对容量管理、能耗管理进行分析回顾；确保中心负责人与各岗位及外包团队间有效地交流与沟通，建立健全有序的工作秩序，提高工作效率和工作灵活性，更好的完成运维管理的统一目标。

细化数据中心上下电管理制度，规范机房机柜及IT设备的上下电管理流程，明确各部门在机柜及IT设备的上下电过程中的职责定位，合理规划机房使用，确保机房设备的安全高效运行。
所有岗位、员工、外包运维团队、供应商及相关单位均设置冗余联系人，确保7*24的接入及呼出的有效接口。

3、维护 Maintenance

1）预防性维护Preventive Maintenance Program

建立有效地基础设施维护管理机制，充分考虑厂商建议、国标及行业标准，建立了年度维护计划、维护实施管理程序、维护延期政策、以及质量控制程序等方面工作的机制，对数据中心基础设施维护工作的组织实施进行规范化、标准化、流程化的有序管理，确保数据中心基础设施的有序运行，提高稳定性、可靠性，有效降低、规避数据中心运行风险。

建立了全年所有基础设施的维护计划，追踪维护时间、内容及完成记录，每次维护工作均由我行人员或外包团队进行100%随工、复核的质量控制程序。要求90%以上的维护工作按计划时间完成。确保所有基础设施按时完成维护，降低运行风险。

建立了所有基础设施的维护作业程序（MOP），做到书面化、步骤化、标准化。涵盖配电、暖通、弱电、消防4个专业，共49个维护作业程序，明确每一项维护作业所需要的安全保障信息、维护工具、备料备件、维护操作步骤明细及数据记录内容。对维护实施筹备、实施步骤、实施标准等内容进行了明确定义，并用于指导、管控、记录预防性维护的实施过程。

建立有效地维护质量控制程序，通过维护计划展板跟踪确保维护工作按时完成，通过维护随工及复核机制确保维护工作按质量完成。

2）运维管理系统Maintenance Management System

重新整理并建立了正式的覆盖所有数据中心设备的信息清单，细化到每一台设备的品牌、型号、安装位置、安装要求、维保信息、技术参数、操作规范等。
建立关键设备信息卡（individual asset history book）跟踪机制，将设备信息卡粘贴至每一台设备上，追踪设备的性能、趋势数据、故障记录、维护记录以及故障维修记录，以便对维护工作、设备性能指标进行分析和优化。
重新整理数据中心基础设施所有设备、配电线缆、空开、管路、阀门、高低压配电箱柜、精密配电柜的编号、对应关系、路由、上下级关联关系、配置信息。并对数据中心内所有基础设施设备重新张贴标志及标识。统一了设备的编号，明确了所有设备的上下级及路由关系，标志清晰一目了然，为后期设备及相关路由的维修、维护、巡检工作提供的极大的便利。

重新制作制冷水系统管路包围，用不同颜色区分冷冻水、冷却水及其温度、进出等关系。使得对水系统管路进行维护及巡检工作各级关系一目了然。

建立维护工具的定期校验机制，所有数据中心维护工具定期送至国家认证的检测机构进行校验，并建立供应商维护工具校验要求及核查机制，供应商工程师每次进入数据中心提供服务之前对其工具有效性进行核查，确保维护活动中测量数据的准确性。确保了维护活动的有效展开，实现了工具管理的规范化，杜绝了因维护工具的丢失、损坏、失效等原因导致的维护质量下降、应急抢修延误等问题。
建立数据中心基础设施备件保障的管理制度，关键备件、普通备件及耗材分类管理统计，明确备件保障的存放位置、数量、到场时间、定期核查机制、再订货信息等，确保SLA的可执行性，规范了备品备件的品类、存量、维护、统筹管理等内容。建立了数据中心库房管理制度，明确分类、出库、入库及领用流程，实现了物资出入库的规范化、流程化管理，保障库房内财产、物资安全，提高维护维修效率。

3）供应商支持Vendor Support

建立合格供应商清单；重新梳理服务水平协议（SLA），约定服务人员、资质证照、接入流程、联系信息、维保内容及频次、工具备件要求、故障级别以及相应的响应时间、服务人员到场时间、备件到场时间、系统恢复时间、设备修复时间、培训要求等。
建立供应商服务质量管理与控制流程，用流程工单记录每一次供应商服务信息，包含服务发起程序、维护工作内容要求、维护时间、频次、应急要求、培训要求、维护人员资质要求、维护工具要求、维护备件要求等，对每一次服务进行打分考核，并约定供应商接口人及工程师的冗余配置。实现了对服务商服务质量的有效闭环管理。

4）维护延期Deferred Maintenance Program

建立延期维护管理制度，要求数据中心按时维护完成率不低于90%，如因与IT工作冲突、备品备件缺失、供应商变动或其他不可抗因素导致的维护延期，需召开专项会议对维护延期风险进行评估，重新定义维护计划及维护等级，并对通过邮件对相关部门进行通报。

5）预测性维护Predictive Maintenance Program

建立数据中心关键基础设施的预测性维护机制，定期对柴发机油、冷机冷冻油、循环水泵的震动位移、红外空开温度、循环水系统中Cu及Fe离子含量做检测并生成报告，进行预测性趋势分析，提前发现设备性能的下降、设定点的变化、发现潜在风险，预测故障。

6）生命周期规划 Life-Cycle Planning

建立数据中心核心设备的生命周期规划，规划贯穿于设备的设计、制造、选型、购置、安装、使用、检测、维修、改造、以及拆除报废的所有过程，并确保设备在备件、备料或整机需要更换时有配套的财务政策支持。

7）故障分析程序 Failure Analysis Program

建立整套数据中心故障跟踪及分析体系，包括基础设施的事件、风险、问题的管理制度、工单流程、处理追踪及升级机制、优化分析改善程序。详细记录故障的发生时间、现象、涉及设备、影响范围、处理过程、总结及优化措施等。通过对事件的追踪，故障的分析以及所学到的教训来优化运维程序，避免风险的升级扩大，有效积累知识。

8）机房清洁制度Housekeeping Policies

建立了完善的机房清洁政策、建立机房清洁管理制度、卫生作业计划、有效追踪卫生作业记录，对于机房的清洁坚持高标准严要求，有效地降低火灾、污染腐蚀等风险，M&O终审数据中心的清洁状况得到了Uptime的高度认可。

4、培训 Training

1）员工培训Data Center Staff Training

建立针对民生员工及外包团队的培训管理制度，包括年度培训计划、课程及参考资料、考核试题等。培训课程内容涵盖了运维管理、配置管理、安全、专业技术、应急实施五大方面，每年25场培训及考核，确保操作人员掌握专业技术及运维流程，不断提高数据中心员工专业素质，有效规避因运维人员人为因素而导致的运行风险。

建立正规化的培训考核流程，包含培训时间表、课程计划、培训材料、签到、考核评估、培训档案等要素。

为数据中心的新员工建立培训机制，培训内容涵盖管理制度、专业技术、应急操作等相关内容，由指定导师带领新员工完成为期3个月的培训及考核，合格后可执行相关工作任务，以满足工作对员工技能的要求。

2）供应商培训Vendor Training

建立供应商的培训管理制度，培训内容涵盖了数据中心服务工作要求、工作管理流程、服务SLA等内容，所有进入数据中心服务的供应商均需进过民生银行的培训并通过考核。确保进入数据中心提供服务的服务商人员熟悉机房工作要求、管理流程，有效降低服务商人员工作的操作风险。

5、计划协调与管理 Planning Coordination & Management

1）站点政策Site Policies

建立数据中心正常状态下的供配电、暖通、水系统阀门、电力监控、环控、楼控系统的标准状态配置运行方案（SCP），及相应的变更管理流程，管理范围涵盖基础设施的运行状态、参数设定、设备配置等内容，进行以风险管控为目标，以规范化、标准化、流程化变更实施管控方法，对变更风险进行控制。

建立数据中心的标准操作程序（SOP）覆盖所有日常操作场景，共26个操作程序，110个操作场景。每个场景均有明确的操作步骤，有效减少人为操作失误。

建立了数据中心的应急操作程序（EOP）共20个操作程序，61个应急操作场景，每一个操作步骤及所需时间都经过实际演练验证。建立了应急演练管理制度，制定了全年应急演练计划，使应急演练常规化、制度化，有效提高运维人员处理突发事件的能力。

建立数据中心文档资料库及文档服务器，完整、规范、科学的保存管理技术资料、竣工图纸、书面自控程序等资料。并建立了运维体系文档的编写、审批、发放、使用、更改及作废的制度及管控程序，所有的资料运维团队均可现场获取，做到所有操作都有据可依。

持续追踪数据中心空间、电量、冷量的使用情况，每周评估增长趋势，使得机房设备配置、布局合理，实现机房电力、空间、冷量资源的均衡使用，并应用于IT设备上下架、加退电物理实施中的资源评估管理过程。

6、运行工况Operating condition

建立数据中心容量管理制度，明确容量采集、容量统计分析和容量优化管理的工作机制，每月更新机房模块间的空间、电量、冷量的消耗使用情况，并对其进行平衡性分析，确保容量的均衡合理使用。设置容量预警阀值，确保组件之间切换不超负荷上限。设置机房服务器配电三相平衡要求。
建立能耗管理制度，内容涵盖能耗采集、能耗统计分析，能耗优化管理等方面，综合考虑可用性和节能性需求，对机房空间、电量、冷量进行合理布局合理规划，对机房送风温度、冷冻水出水温度、风机转速、循环水泵变频、盲板安装、电能采集精确化、制冷模式优化等指标进行一系列的精细化调整与优化，提高能量使用效率，持续降低PUE值。

7、机房模块均衡性管理

M&O体系有效性的核心原则

原则一主动性原则：提前制定MOP、SOP、EOP、SCP等流程和程序，提前制定维护计划、事件、风险、变更等管理流程，提前规划生命周期、容量、能耗等管理预测机制，建立有效的故障跟踪分析体系、优化及改善程序，主动预见问题和风险，防患于未然。

原则二实用性原则：确保所有已发布的流程和程序文档文件都经过实践验证，在实际工作中是可执行的。并制定有效地更新优化机制。

原则三周知性原则：确保所有数据中心基础设施员工遵行相关流程均可现场取阅技术手册、参数设定、图纸、流程及程序文档等，确保知识及流程体系存在于组织而不存在于个人，确保数据中心的服务保障能力和运营管理水准不因人员的变动而发生变化。

体系审核评价

马坡数据中心于2019年6月13日完成Uptime M&O现场认证审核，并以95.5分的成绩顺利通过Uptime审核专家现场终审审核（全球通过认证数据中心平均分为84.7分），获得Uptime M&O认证奖牌。

Uptime 官方对于马坡项目的评价

机房格外的清洁，每年由外部专业供应商进行一次地板下清洁工作，数据中心内无可燃物、清洁工具、纸箱以及个人物品等杂物。清洁的机房环境是数据中心团队坚持执行着极高运行标准的最好证明。
建立设备信息卡机制对设备性能及趋势进行追踪，便于维护活动的执行及优化。
数据中心执行非常全面的预测性维护活动，包括红外扫描、水泵震动、柴发机油检测、冷机油检测、水管路Fe、Cu离子分析。
数据中心内所有的设备、断路器、指示灯、仪表和阀在暖通及配电现场都有可取阅的相关文档及标识，所有设备和设定值都在现场有标识指示，以实现可持续的运维并降低人为操作风险。
总体而言，数据中心的运营管理较预审有了非常显著的提高，看到数据中心团队的坚决地提升运营管理水准是非常令人振奋的。

总结

通过数据中心基础设施Uptime M&O运营管理体系建立与实施，我行数据中心的运营管理从过去以暖通、电气等专业为出发点建立运行制度和政策，转变为从整体基础设施管理领域出发，以体系化、标准化、程序化为导向，本着主动、实用、周知的执行原则，规划、建立、管理数据中心基础设施整体运营体系工作并执行到位。

本次认证通过对体系中人员组织、运行维护、培训、计划协调管理及运行工况五大要素的审核，表明了数据中心基础设施的运营管理达到了Uptime M&O标准的要求水准并落地运行，此次获得Uptime M&O认证是一个良好地开端，未来数据中心运营团队将继续严格遵循体系要求，坚持M&O的运营管理理念，并能够以此为基础，不断总结、优化运维管理内容，不断提升和完善专业技术水平、信息服务和保障能力，力争始终走在信息化建设和管理的前列。