一个数据中心的良好运转离不开苦逼的运维人。一个数据中心运维基本涉及到了IT相关的所有专业,从机房的设计、暖通、动力、服务器、存储、网络、综合布线、系统、应用、开发、数据分析、数据挖掘,基本你能想到的相关IT技术在数据中心都能够找到。数据中心俨然就是一个IT技术的聚集地。
不过数据中心是IT技术的聚集地,但是并不是IT技术的高地。其实你很难在数据中心内部找到非常前沿的IT技术。前面我有提到,数据中心需要高可靠性。而正是这一要求,注定了所有的数据中心首先都要追求一个字,那就是“稳”。
只有那些经过时间检验、稳定性高的IT技术才会被数据中心采用,因此往往越重要的数据中心如金融行业等其IT技术相对外界显得越落后。即使是软件开发也是采用比较古老的cobol写代码,像之前很多的大型机和金融相关的都在用COBOL。不过近年来随着互联网企业的飞速发展,大量的新技术也在互联网企业大胆启用。
数据中心求“稳”的特点直接决定了数据中心运维人员的工作特点。数据中心所有的运维工作都要以“稳”为前提,没有百分百的把握不要轻易的在运行环境下搞操作,没有梳理好可能影响的设备、系统、应用不要轻易的作出割接、变更、调整的决策。
工作这些年接触过很多厂家的技术人员,特别是那些刚参加的技术人员经常会问一个问题:我这么简单的操作为什么要等半个月?为什么半夜两点才能做?明明一分钟就完事了为什么搞得这么复杂。
其实答案也很简单,不管是大型的数据中心还是小机房的IT运维人员都要记住,重要的数据中心容不得一点马虎。几乎所有重要的数据中心割接、变更、调整都是安排在零点以后。
很多人说运维人很苦逼,其实苦逼的并不是运维本身,苦逼的是协调本身。一个一分钟的操作,你可能要开好几场大大小小的协调会、分析会,你要把可能影响到的所有应用全部列出来,你要把可能涉及到的所有风险点都要全部列出来,哪怕这个风险概率才1%