2022年作为数字经济元年,在“新基建”背景的推波助澜之下,“智慧+”项目如火如荼,数据中心已然成为交通、能源一样的重要经济基础设施。
但数据中心区别于其他行业有一定的特殊性,需要运维人员7*24小时支持,这就意味着需要运维人员高效作业,以便数据中心得到平稳发展。很多企业选择借助软件管理工具提升工作效率,如动环、网管、ITSM等,除此之外,我认为数据中心更迫切需要的是一套网络基础设施可视化系统。
那么网络基础设施可视化系统,能为运维工作带来哪些价值呢?
01 减少人为故障
概括来说运维工程师核心工作目标就是稳定运营,做到稳定运营最重要就是杜绝故障并减少故障影响,需要做到两个极致,一是最大限度预防故障发生;二是故障发生后尽快修复,降低故障影响。这就不得不深究一下数据中心运维故障的主要原因了,知道原因才能真正做到防患于未然。
根据2022年CDCC"中国金融行业数据中心运维管理发展论坛"数据统计,“人员误操作”为数据中心基础设施运维故障的主要原因。我认为造成“人员误操作”有以下几个因素:
-
人员频繁进出数据中心
-
运维工程师岗位流动性大
-
部分人员技术能力未能满足岗位需求
当以上问题预见网络基础设施可视化系统,将迎刃而解。数据上图,以可视化的形式精准体现出设备位置、连接关系、中间经过哪些配线架,对应设备的配置信息、IP地址、厂商维保信息等,坐在电脑前面即可清晰的知道各个数据中心内部情况,减少人员频繁进出。并且内嵌了流程工单逻辑,辅助企业单位建立起运维管理制度,从而实现,非必要不乱入,没审批不乱动,大大避讳人员误操作带来的故障。
也因为有了以上可视化的数据,建立起了规划、合理的运维体系,新来的运维工程师也可实现快速接手,减少人员流动为数据中心带来的损失。
不仅如此,如耐威迪的nVisual网络基础设施可视化管理系统,还将设备手册内容内嵌至设备之中,将业务与设备一一关联对应,减少因运维人员素质参差不齐带来的设备接错线缆、随意插拔跳线等问题,进而规避因线缆选择错误带来的丢包、影响传输速率等问题,亦可规避因误操作而带来的重点业务中断概率。就算出现问题,可实现“更早发现、更早告警”。
02 提升安全可靠性
其实“减少人为故障”就是提升了安全可靠性的一种手段,但是真正的网络基础设施可视化管理系统,功能远不止步于此。还是nVisual系统,可通过操作行为审计、实时监测提高基础设施安全可靠性,并且结合可视化追踪功能提高链路保障能力,并且还有自动编码等功能,这样即可规避各个部门编号规则不一致,导致其他部门或者新接手运维工程师看不懂,又或是一根线缆对应多标签等问题。
标准的运维体系,规范的流程记录,势必会大大提升数据中心的安全可靠性。
03 经济价值--节本创效
3.1节本
节省建设成本
清晰的管理记录资产情况,可以使网络基础设施资源得到最大的利用,比起传统表格的记录方式,至少可以减少约20%的资产闲置.
节省采购成本
同理,记录清晰端接情况,节省设备端口及跳线等,从而清除设备上下架情况,节省设备等采购成本.
节省时间成本
目前的网络基础设施管理模式全部依靠人力,一旦发生故障或需要调取资料、新上架任务等,都需要人力接入,耗时耗力,还易产生人为错误,系统介入后,算法代替人工,提升规划、排障、查询等时间成本。
节省故障导致的业务成本
随着时间的迁移,网络基础设施等资源端接情况都会变化,如果没有准确的记录,一旦发生故障,排障时间大大增加,所承载业务中断,损失不可估量。
节省人力成本
因为有了清晰的基础数据,日常在维护之中就不需要大量的人力来支撑需求了,可以处理更有意义的工作。
节省维护成本
传统都是依靠表格记录,记录包括链路连接情况、IP地址、标签等等,管理工具的介入大大减少这些日常维护的成本,所有纸质资料都可以进行系统的管理,避免重复工作、无迹可寻,亦节省了制作报表等时间,重点链路还可重点保障.
3.2创效
我认为数据中心管理者首先要知道自己有什么资源,资源分散位置、端接情况等信息,才能实现数据中心精细化管理,网络基础设施管理平台可以清晰的统计出来实时资产数据。摸清家底,将再利用闲置资源回收,为业务提供服务、为企业再次创造价值。
04 投资回报率分析
口说无凭,案例数据来说话,以北京XX院项目为例。
4.1案例背景
2020年11月项目开始实施,采购1000节点。共计26台机柜,其中服务器60余台,交换机30余台,安全设备20余台,配线架260余个。
主要问题:
大多为老旧设备,线缆冗杂;
历史悠久设备纸质文件众多;
没有哑资源管理工具;
需要大量人力,成本高昂。
4.2使用前后分析
原状:
根据林科院项目统计,资深运维工程师15%-20%的时间都用于查找资料文献、排查僵尸线路等低效工作。设备年宕机时间约4%左右。
现状:
-
因为可以合理的规划机房空间(如机柜位置、U位等)节省了一定的空间资源,随着业务扩增,林科院项目现已增加30%机柜数量。
-
据年末财务核算能耗成本、采购新设备成本、人力平均成本均有所下降。
-
借助nVisual基础设施管理工具,运维工程师工作效率大大提升,虽业务扩增,但并无新增运维工程师。
-
工程师反馈,部分资产统计都可以借助系统自动生成了,节省40%制作报表时间。
4.3数据分析
公式:投资回报率ROI=(2年节省费用÷2年投入费用)*100%
IT预算50万元/年 低效工作时间成本5% nVisual至少提升2%以上(1万元/年估算)
年宕机时间4%宕机损失MTTR 2万元/小时 nVisual降低20%宕机(价值按照20万元估算)
原模式扩建机房应新增运维岗位至少3人(5000元/月工资,预计18万元)
直观采购成本(减少服务器等设备采购)经财务核算,降低20%(按照5万元估算)
2年共计节省费用:(1+20+18+5)*2=88万元
ROI=88÷16*100%
投资回报率:550%
05 总结
行业权威公众号、专家都已关注到最基础的网络基础设施,在百度搜索之中,网络基础设施可视化词条已多至三千五百多万条,各大领头行业标杆也以早将网络基础设施可视化系统建立,以上充分证明数据中心行业已然注意到网络基础设施管理的重要性,是呀这样真正能让运维工程师用起来,真正能实现数据中心细化管理的、建设起标准、规范运维体系的系统,谁不心动呢?