在排查top报警问题时,发现某报警的trace链路有点奇怪
报警的监控为dubbo调用超时异常,在链路追踪系统中,观察trace链路时间,发现provider端的耗时正常,而consumer端报超时错误
怀疑出现gc问题,使得dubbo无法正常返回结果。
观察jvm gc监控,发现明显gc问题,且gc问题监控与报警监控吻合
但在机器3上未发现gc问题,观察单机趋势图,发现只有机器1有问题
马上进行处理。摘掉healthcheck、dump、重启机器1
使用visualvm分析 dump文件
发现该类占据了明显的内存空间,分析是前期上的测试自动化工具中的agent中的类,经联系相关业务方,为对象未释放导致的内存泄露问题。