本人从事IT行业以6年有余,这期间曾尝试过很多方向,但基本都不做开发。最近又开始尝试做运维。接下来就说说做运维以来遇上的第一次事故。

   那天下午接到研发的工作单,要求上架2个linux的服务器,只要安装好CentOS6.5操作系统,然后对外开放22端口即可。要求非常简单。很快就实现了,root密码就设置成了password。然后交付研发。之后是个愉快的周六和郁闷的周日。因为这周日我被领导通知来公司检查网络,因为公司服务器无法访问了。考验来了,我心想。

   赶到公司后第一件是就是登陆防火墙判断一下是不是外网断了,就是ping一下百度,发现不仅没问题而且很流程。于是迅速定位应该是内网问题。经测试发现服务器到达防火墙内网口延迟很高。这下基本可以肯定就是内网问题,但是到底怎么回事呢?为什么内网这么拥塞呢?我的第一个想法就是可能存在DOS***,或者有广播风暴。我想到的第一个方法就是在防火墙或者交换机或者服务器上抓包看一下。但是网络太卡了,没法远程,只能本地操作。于是来到机房,准备接线的时候我发现有几个交换机接口的指示灯频繁闪烁,不太正常。我看了一下这几个接口就是我之前刚刚上架的服务器。当时的心理真是喜忧参半。喜的是问题应该是被很巧合的发现了。忧的是服务器可能被嘿了。于是马上登录服务器查看,也没什么经验,必定才开始做不久。第一件事就是用last查看登录历史,发现果然有很多外网地址登录过设备。第二件事就是用history命令查看命令历史。居然也发现异常。有几组用wget命令从外网下载文件,然后给执行权限后,又后台执行的命令。通过这两点可以断定,服务器被黑了是肯定的,之后就是漫长的排查补救工作。删文件,杀进程,查看是否设置开机自动下载,是否添加了新用户等等。当时在删除文件的时候可是费了不少时间,因为有一个***程序删了之后就又会重建。就差一点我就要从新安装系统了。最后我找到了一个和这个***进程启动的时间点完全一样的文件,删除后发现***程序不在自动启动。

   事后回想,这次被黑完全是个低级错误导致的,那就是弱密码。以前做安全的时候一致都觉得被黑不会那么简单,经过这次事件我发现只要你的错误够低级,那么背黑起来也会异常简单。一定要记住这次血的教训。弱密码!!!