case-内存溢出

最新推荐文章于 2024-02-01 21:24:17 发布

扫雪去

最新推荐文章于 2024-02-01 21:24:17 发布

阅读量344

点赞数

分类专栏：线上运维文章标签： java内存溢出

本文链接：https://blog.csdn.net/han_dada/article/details/88871164

版权

线上运维专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、事件背景

多个服务突发连接超时报警，迅速查看报警原因发现是因为一个rpc服务的所有接口请求都超时了。

二、分析过程

发生事故这个服务不是由本人负责而是帮助组内其他小伙伴排查的问题。虽然不是我负责的服务但是由于是组内的服务并且经常会和这个服务打交道所以运行状况基本了解。）注：由于该文章是事后一个月写的所以部分指标和证据已经找不到了，大家自己想象一下吧。有些图片涉及到公司机密所以也屏蔽了。

1.首先怀疑可能QPS突然升高导致

喵了一眼qps，发现整体QPS和接口QPS都很正常，同比环比都很正常。

【此处应该有图】

2.怀疑感觉可能是GC搞得鬼或者是网络原因

查看服务的GC情况，发现老年代利用率都在同一时间内迅速增大然后触发CMS开始回收老年代，STW时间过长导致请求都超时了。

与此同时内存溢出的报警也报了出来。这时服务负责人有点慌了，要求重启服务。由于服务的内存在gc之后会降下去而且此时因为服务器比较多所以还能勉强的对外提供服务贸然重启可能会导致其他服务器压力更大，所以我提出了在观察一下的建议。

【此处应该有图】

3.分析一下Dump

发现其实这个服务并没有指定-XX:+HeapDumpOnOutOfMemoryError参数，一脸懵逼。让同事对一台机器进行dump的同时我去搜集其他信息。

4.怀疑最近上线了那种不可描述的代码

看了一下发版记录服务最近都没有发版。

5.分析一下内存溢出异常

去服务器看了一下内存溢出的报错并简单统计了一下内存溢出的堆栈信息和上下文日志，发现了有价值的信息：

惊人的发现多达60+次的内存溢出竟然是调用同一个接口对同一个资源的操作引起的。定位到该资源发现这是一个10M大的图片。看了一下业务代码服务器会下载该图片并进行处理处理过程总经过多次转换然后膨胀为自身的2-3倍。然后又统计了一下所有针对该资源的操作在同一时刻内竟然有几千次请求。基本确定原因。然而此时dump居然还没完事。

【此处应该有图，自己想象】

【此处应该有图，但是涉密】