最近工作中需要为PHP服务提供存储prometheus指标数据的UDP服务器。然后就用Netty实现了一个简单地UDP服务。但是在压测的过程中发现有严重的丢包现象。下面我们就来分析一下丢包发生的原因以及解决办法
1.linux 系统接收网络报文的过程
接收数据包是一个复杂的过程,涉及很多底层的技术细节,但大致需要以下几个步骤:
网卡收到数据包。
将数据包从网卡硬件缓存转移到服务器内存中。
通知内核处理。
经过TCP/IP协议逐层处理。
应用程序通过read()从socket buffer读取数据。
网络报文接受过程
在接收 UDP 报文的过程中,图中任何一个过程都可能会主动或者被动地把报文丢弃,因此丢包可能发生在网卡和驱动,也可能发生在系统和应用。
如想要详细的了解这个过程可以参考美团的一篇文章:Redis 高负载下的中断优化
2.确认UDP丢包
排查丢包问题的第一步就是要确认UDP丢包了。一般有以下两个途径:
从UDP服务所产生的业务信息中去核对
从Linux服务统计信息中查看
那么我们首先看第一种方式,也是比较简单和直观的方式。
2.1.从UDP服务所产生的业务信息中去核对
比如,我们的UDP服务器的功能就是提供存储prometheus的指标数据的功能。那么我们就可以通过Count类型的指标数据来衡量是否丢包了。其原理也比较简单,如下图
原理图
client发起UDP请求,UDP服务器就+1,然后测试结束后通过Http服务,把数据暴露给用户。暴露数据给用户的方式可以有多种,比如可以写日志。这个根据业务场景来。由于我们本来就是要暴露数据给prometheus服务器的,所以直接Http请求就可以抓取到数据了。
我们实际场景下的测试数据如下: