在一个项目短链服务性能测试时,发现一个因为测试客户端造成的吞吐量异常波动的情况,最终原因是在域名多ip的情况下,测试客户端处理不当造成的。但涉及到的知识面包括JVM、DNS缓存,所以来详细说一下。
选用的测试工具是 grinder,grinder是纯java实现的负载测试工具。
并发策略,并发1个进程,10个线程,测试10分钟。
问题表现:测试发现整体性能还算平稳,但是吞吐量毛刺比较多,且波动浮动比较大。如下图表现:
根据图示中的 Transaction per second 波动曲线发现每个20~30s左右就会出现一次抖动,抖动幅度较大,tps成倍的下降。
这个时候观察两个nginx节点,发现每隔20~30s两个nginx会切换一次,也就是说同一时间只有1个nginx是有压力的,过20~30s之后,压力切换到另一个nginx上。
显然这种情况是不合理的,两个nginx节点是均等的,压力也应该是均衡的,因此怀疑负载均衡会有问题,于是开始分析为什么Nginx会出现这个情况。
分析思路1:是否是DNS负载均衡有问题?
DNS解析多ip的策略是依次返回两个IP顺序为:AB,BA,AB...以此类推,得验证这个机制是否生效。
于是设置java启动参数:-Dsun.net.inetaddr.ttl=0也即是不缓存ip,每次都进行DNS解析,tcpdump查看数据包实际情况。从dump数据来看,每次域名解析返回的