这个文章只是我的一些埋怨和牢骚- -如果有兴趣大家可以看看,不过估计应该不会有什么营养价值吧!!

        去年我所在的公司由于融资没有谈下来,所以运维方面大幅度的减员,我也顺着潮流回家了- -!并在今年一月初成功的来到了这个新的公司。公司的名字我就不说了- -这里简称“公司”就好了。

        初到“公司”,我的职务应该算是项目运维吧,这里运维加上我一个三个人,一个只看数据库的“DBA”,一个几乎什么都不管的“运维经理”。开始觉得这样的环境挺好的,很自由而且有很大的动手幅度。一开始现实熟悉业务,说实话公司的架构很简单。

        查看监控服务的内容,这里就开始蛋疼了,打开Nagios监控界面,二十台不到的服务器居然有200多监控项,一开始觉得业务逻辑一定挺复杂的吧- -,可是细一看觉得不对了,这监控的都是什么啊?服务器用户登录数、僵尸进程个数、服务器进程数、服务器运行时间。这都是啥啊!有点搞不明白这是要监控什么东西了。继续看到完,突然想到咦!怎么出了服务器的基本信息什么其他的内容都不监控啊,应用那?端口那?网络链接数那?立刻一脑袋的汗啊!

        于是乎,刚到公司的一个月就一直在晚上和改进Nagios监控,加上公司的线上及测试环境的服务器更新- -!!几乎所有的服务器一直是我一个人再弄,这里突然觉得很乱,仔细想一想,由于所有的维护工作都需要我去操作,尤其是测试服务器,最少的时候也平均每个小时要更新三到四次,加上没有正规的测试团队,时的哪个服务器的修改频率异常的高。

         由于Nagios的改进和Cacti的部署,监控已经趋于完善了,慢慢的也就到了3月底,由于销售们的突击,月底访问量激增,服务器瘫痪了好多次。这里有各种各样的原因。数据库挂了,服务当了,链接连不上了等等等等。开始频繁的基础到运营的人了。由于之前在大头无线的经历让我了解到一个好的运营团队对于一个公司是多麽的重要,“公司”的运营团队跟大头哪里的比真是查的不是一星半点。无论什么事情都是一个邮件“我跟XX打招呼了你们去协调吧!”。服务器down机就打电话和发邮件说“为什么又发现这么晚?就不能提前预知?”

        这里我就举个例子吧!四月中旬的一天,我平时都是下午5点开始做下班前的最后一次巡检,巡检到6点左右全部完成,巡检工程中服务器全部正常。下班前查看了一下Nagios没有异常报警。于是安心回家了。第二天早上,运营就开始火烧火燎的跟我联系,一上来就是刚才说过的那句话,“都12个小时了怎么还没发现问题?就不能做到提前预知吗?”说实话,没有查出故障确实是我的责任,但是对于她这种不负责任的言论我真是有点火。后来她把客服发的投诉邮件跟我转了过来,我一看时间是昨天下午五点半,故障时间正好是我线上服务器巡检结束后,真是寸啊= =!!我很好奇的问了一句:“昨天下午收到邮件的时候为什么不给我发过来?”她的回答是:“你们要自己找到问题,预知问题,别指望别的部门。”我真想抽她。哪个故障时服务进程卡住了,端口打开着,进程也还在,就是不接受服务了,这种状态下nagios的监控几乎没有任何作用。

        就这样在和运营的你来我往中到了6月,运维的人从开始的3人削减到2人,还有一个天天往家跑装修,上班时间几乎都不在单位。都得服务器,应用,数据库,网络都是我一个人再弄,还有各种频繁的更新,时不时的巡检一下服务器。这种工作每天都特别充实,但是真实每天都感觉毫无收获- -!!

 

        一个垃圾运营团队加上一个不懂运营的开发团队再加上一个毫不负责人的运维团队。这就是“公司”现在的情况。