一次夜间接口超时的解决过程

最新推荐文章于 2024-07-17 16:24:53 发布

java小姜在线冲

最新推荐文章于 2024-07-17 16:24:53 发布

阅读量368

点赞数

文章标签： jvm java 开发语言

本文链接：https://blog.csdn.net/java1527/article/details/126850652

版权

某应用在类目客户端切换数据包时出现接口超时，经过排查，发现并非由堆空间不足或Sentinel限流引起，而是由于加载大文件触发Major Page Fault，导致进程挂起。解决方案是升级类目客户端并优化加载策略，以减少对服务的影响。

摘要由CSDN通过智能技术生成

背景

闲鱼某关键应用A依赖类目系统富客户端（下文简称类目客户端），旨在为闲鱼商品域其他应用提供各类商品类目及属性数据（下文简称CPV数据）查询服务。

每天凌晨，该应用所依赖的类目富客户端执行新老版本数据包切换时，应用提供的服务抖动非常明显，表现为大量接口超时（耗时100ms -> 3-5s），服务成功率明显下降（100% -> ~92%），RPC线程池活跃线程数上涨（50 -> ~100），抖动最长可持续20s，影响到商品发布、商品详情页等依赖CPV数据的关键业务场景；且夜间发生抖动，时间点不固定，抖动发生时开发同学也难以关注到，影响面较为不可控，因此需要排查并彻底解决此问题。

排查过程

其实这是一个表象很简单，但是根因藏得比较深的问题，笔者在排查过程中也走了一些弯路，也一并写出来供读者作为前车之鉴的参考。

堆空间不够？

结构化应用线上原先使用的是4C8G的标准规格容器，分配4G内存作为堆内存，截取部分JVM启动参数如下：

-Xms4g -Xmx4g -XX:MetaspaceSize=512m -XX:MaxMetaspaceSize=512m -XX:+UnlockExperimentalVMOptions -XX:G1MaxNewSizePercent=65 -XX:+UseG1GC -XX:InitiatingHeapOccupancyPercent=55 -XX:G1HeapRegionSize=16m -XX:G1NewSizePercent=25 -XX:MaxGCPauseMillis=120 -XX:+ParallelRefProcEnabled   -XX:MaxDirectMemorySize=1g -XX:+TraceG1HObjAllocation -XX:ReservedCodeCacheSize=512m -XX:+UseCodeCacheFlushing

据反馈接口抖动的同学描述，在接口抖动的时间点，请求失败的机器发生了FGC。