今天负责邮件系统运维同事报告公司邮件系统异常,现象是邮件队列中待发邮件较多,系统访问慢,他的处理方式是:
1、从邮件服务器ping互联网出口路由器,延时很短,无超时,判断网络链路正常;
2、查看邮件系统主机资源,CPU、内存应用水平都不高,也无硬盘空间问题,判断与主机性能无关;
3、检查邮件系统进程,无异常,查看邮件队列,发现有部分较大邮件,怀疑是这些大邮件发送慢导致待发送邮件排队,于是在后台删除这些大邮件,删除后故障仍在,联系邮件厂家远程支持,最后结论是没发现异常的原因。
运维同事向我报告结果时,我分析故障现象,感觉不应是大邮件造成的问题,因为日常有更多更大的邮件也没出现邮件发送过慢的问题,还是怀疑网络链路有问题,于是我从内网ping邮件系统,发现有超时丢包现象,而通过监控系统分析流量和连接数都无异常,其他系统也无异常,初步判定是邮件系统的网络连接有问题,让同事更换网线后故障排除。
通过以上事件处理过程分析,在系统出现访问故障时,一定要关注细节,网络中断时要重点关注网络问题,网络丢包时同样要关注网线问题,因接口松动、静电、老化等因素均可能引起网线接触不良,产生丢包问题,有时故障原因没有我们想像的那么复杂。