很多人认为网络维护工作是被动的,在网络出现故障的时候才去处理,在用户投诉网络性能不足的时候才去升级扩容。这种工作方式导致维护人员经常疲于应付各种网络设备突发事件、加班加点处理各种与网络相关的用户投诉,工作繁重、身心疲惫。其实我们应该建立“主动维护”机制,由面向设备的网络运行维护转变为面向用户的服务,主动对网络进行定期健康检查和实时监控,在用户感知不到的情况下,及时发现网络隐患并排除,变被动维护为主动服务。

       那么该如何开展网络健康检查工作呢?那些指标是我们需要关注的呢?笔者已经从事网络维护工作多年,虽然算不上是这方面的专家,但也积累了一些维护经验。在网络健康检查方面,笔者认为主要有五大关注点。

 

1、网络设备的CPU占用率和内存利用率

       CPU占用率和内存利用率属于网络性能指标,直接关系到网络的运行效率。就像我们使用的电脑,假如CPU性能低,内存不足,就会导致系统运行速度慢,甚至频繁死机。网络中的路由器、交换机、防火墙等设备也是一样道理,假如性能不足网络就会不稳定,出现网络故障。因此我们需要定期对网络设备的CPU占用率和内存利用率进行检查,确保网络设备性能良好。

       需要注意的是,有时候网络设备的CPU占用率和内存利用率过高,并不是设备性能不足引起的,数据配置错误,网络连接错误或网络***也会出现此情况。例如交换机环路引起“广播风暴”会导致CPU利用率瞬间上升到100%;Ddos网络***也会消耗网设备大量资源,引起网络故障。因此,网管人员应该具体问题具体分析,找出故障的源头。

 

2、网络链路的流量及带宽占用率

       网络链路的流量及带宽占用率也是属于网络性能指标,网络维护人员同样需要经常关注。网络链路的带宽占用率过高必然导致网络传输速度慢,影响用户使用。网络维护人员应该定期提取网络链路的流量及带宽占用率数据,检查流量峰值发生的时间段和持续的时长,分析这些流量是否属于正常流量,主要是什么操作引起的。评估是否需要对网络链路的带宽进行扩容。

       网络链路的流量及带宽占用率数据的提取需要利用一些专业的网管软件,这些软件通常是基于SNMP或Netflow协议,网上有不少软件是免费的,大家可以搜素一下。在这里不详细介绍了。

 

3、网络丢包率

       网络丢包率属于网络运行质量指标,网络丢包会影响网络通信质量,影响网络稳定性。例如:FTP经常连接不上或传数据中途断开,网页经常新打开失败等,都可能是网络丢引起的。因此网络维护人员应该经常对重要的网络链路进行检查,看看是否有丢包现象。可以在路由器上对需要测试的链路连续PING 5000个包,丢包率为0%的话,网络基本正常。假如出现丢包的话就要进行详细检查了。

       导致网络丢包的原因有很多,例如:传输线路有问题,网络接头接触不良,设备没接地线,外部有强电或高频干扰,带宽占用率过高,设备性能不足等。当出现网络丢包时,需要分段检查,逐步找出故障点。

 

4、网络接口的错误包、速率及双工模式匹配是否正常

       网络接口的错误包、速率及双工模式匹配,这些是属于不容易发现的隐性网络安全隐患。例如:以太网接口两端的双工模式不匹配,在建网初期,网络流量低的时候,网络运行看起来是正常的,但是随着用户慢慢增加,网络流量逐步提升的时候,就会出问题了,轻则网络出现丢包现象,重则网络中断。因此这些信息也是网络维护人员需要关注的。

       网络接口的错误包、速率及双工模式可以在设备上运行show interface命令提取。维护人员应该定期进行检查,假如发现接口上有错误包或数率、双工模式不匹配,应该及时查明原因并进行处理。

       端口出现错误包的原因与网络丢包的原因类似,通常是传输线路有问题,网络接头接触不良,设备没接地线,或外部干扰等。

       速率及双工模式不匹配的原因通常是设备不兼容或配置不当引起的。有时候不同厂家的设备通过以太网对接,双方接口自动协商失败就会导致双工模式不匹配。这时我们需要手工指定两端以太网接口的工作模式。同厂家的设备,假如一端配置为自动协商,另一端手工配置工作模式,也会引起双工模式不匹配。因此最好两端都采用统一的配置。

 

5、网络链路主备冗余是否正常

       一些重要的业务系统,通常会部署主备冗余结构,网络正常的情况下,数据在主用设备上承载,当主用网络设备出现故障时,自动切换到备用链路。在网络正常的情况下,备用链路是空闲的。这就出现一个问题了,维护人员不能确定备用链路是否良好?当主用网络链路出现故障的时候,是否能切换到备用链路?

       因此网络维护人员需要定期检查备用网络链路是否良好。通常的做法是选择合适的时间进行主备倒换测试,把主用网络设备关闭或把相关的网络链路断开,检查网络数据是否可以正常切换到备用链路。

       还有另外一种情况是,主用链路出现了故障,网络数据已经切换到备用链路了,但维护人员没有及时发现。因为网络切换之后仍然可以正常通信,不会有人报障。为了避免出现这种情况,维护人员应对设备进行定期检查。例如:运行VRRP和HSRP协议的设备,在网络正常的时候一边是master,另一边是backup,假如主备网络发生了切换,这个工作状态会改变。这些信息可以在网络健康检查工作中发现。

 

       网络健康检查是做好网络维护工作的关键,同时也是减轻网络维护人员工作压力的有效方法。因为定期进行网络健康检查,对网络运行情况进行分析,可以及时排除网络安全隐患,提高网络运行的稳定性,提高用户的满意度。故障少了,用户投诉少了,维护工作当然会变得更轻松!