文 / 中国光大银行信息科技部 刘轶勇
网络丢包是指数据报文在网络传输过程中出现被丢弃的现象。网络中数据的传输是以发送和接收数据包的形式传输的,理想状态下是发送了多少数据包就能接收到多少数据包,但是由于信号衰减、网络质量等等诸多因素,并不能够发多少数据包就接收到多少,在单位时间内发送的数据包和未收到的数据包的比率就是:丢包率。当丢包率较大的时候,将会严重影响传输质量,造成重大业务影响。网络丢包故障是影响银行业务潜在重大故障之一,发现与处理不当,将会造成重大生产事故。
造成网络丢包的情况主要有主机网卡故障、通道中任一网线或光线故障、路由问题,带宽拥塞、网络交换机或路由器故障等等原因,如果我们将网卡或任一条网线当做一个可能出现的故障点,那么在一般银行网络里面,从客户端到服务端,途经的可能的故障点会有几十个之多。例如:客户端网卡、客户端接交换机的网线、交换机网卡、交换机背板等,当其中任一点出现问题后,我们如何快速定位,才能将隐患消灭在萌芽的状态?
目前我行已部署的丢包监控手段
1、专线丢包
使用rping(remote ping)技术监控:rping是指通过对远程设备发出以该设备为源的ping。
2、交换机之间线路丢包
使用VPC ping技术监控:通过ping不同的多个目标ip地址,使数据包遍历交换机之间多个物理链路的ping。
3、设备丢包
使用ping监控:从监控服务器ping目标设备ip,计算丢包率。
4、分段丢包监控
使用报文采集技术,通过特定算法,计算TCP协议传输过程中丢失报文的数量。
以上几种丢包监控方法在日常监控中的局部发挥着重要作用,但是也有较大的缺陷。当丢包位置未发生在上述监控部位,事件处理会更为被动。为此,我们在现有丢包监控技术基础上,经过长期研究与论证、测试,认为:采用全路径丢包监控技术将能够弥补短板,能在较短时间内定位丢包具体范围位置,使我们在丢包监控领域迈出关键的一步。