线上故障分析： Memory cgroup out of memory: Kill process ...（结合dmesg 、jstack命令和jvisualvm工具综合分析）

最新推荐文章于 2025-03-03 18:12:58 发布

小哥骑单车

最新推荐文章于 2025-03-03 18:12:58 发布

阅读量2.3w

点赞数 15

分类专栏：生产问题分析

本文链接：https://blog.csdn.net/lejustdoit/article/details/107472554

版权

生产问题分析专栏收录该内容

9 篇文章

订阅专栏

1、在某一天时段，我生产上的程序突然宕机了，部署在linux 程序被Killed掉；

使用 dmesg -T >my.log 命令输出到my.log日志，查看系统日志，至于dmesg有什么用，参考这篇博客：

https://blog.csdn.net/shuihupo/article/details/80905641?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase

2、根据dmesg -T的结果观察日志，发现如下：

查找到这条信息：Memory cgroup out of memory: Kill process 7187 (java) score 1007 or sacrifice child

为什么程序会被kill掉了？原来在Linux下，允许应用可以预申请内存，预申请的内存如果超过了Linux最大剩余内存，由于系统的保护机制，就会停掉默认内存占用最大的应用进程；

参考这篇博客：https://blog.csdn.net/renfufei/article/details/78178757?utm_source=blogxgwz5

3、查看GC日志，发现一分钟内进行了3次Full GC

在哪些情况下，程序会进行Full GC呢，继续参考博客：

https://blog.csdn.net/YHYR_YCY/article/details/52566105?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

4、登录了生产的应用，发现除了宕机的其它机器上，其它机器都没有业务请求的日志，只有宕机的这一台有程序运行业务日志，是因为运维的nigix配置问题，把所有的请求都分到了宕机的这台机器上，另外的应用机器，虽然服务正常启动，但是没有接收到分发过来的用户请求；

所以我暂时把此问题理解成了运维的锅；

解决方案：给机器加内存，并且修改nigix配置，使用户请求均衡分发到每一台应用上；

5、以为问题就这样解决了，但是没有过多久，半个月以后，又发生了程序内存占用高，频繁报错的情况，虽然没有由于内存过高导致系统被Linux停掉，但很多用户的请求接口超时，无法正常使用；

先从logback中找到了这样的异常日志：Could not get a resource from the pool#012#011at redis.clients.util.Pool.getResource

查看代码，之前redisPool没有设置大小，默认为8，尝试修改一下，修改为配置文件中设置的100

spring.redis.pool.max-active=100

6、然后使用jstack -l pid，查看线程stack有什么异常：

发现里面有大量的redisson waiting（程序里面使用到的redis客户端）状态：

其实在上面，我们看到已经使用了JedisPool来作为redis客户端连接，这里又引入了RedissonClient，显得有些重复多余了

（Redisson 不仅封装了 redis ，还封装了对更多数据结构的支持，以及锁等功能，相比于Jedis 的话功能更加强大）

7、继续分析jstack输出的线程stack日志，有很多 Mysql TIMED_WAITING（先关注，这个问题在下面继续分析）

8、这里logback还改了一下输出日志级别，之前只打印了info日志，现在BusinessException异常的改成error级别日志，看看还有哪些程序错误没有通过error日志抛出来：

9、然后程序上线了一版，继续监控可能会出现的问题：

发现了mysql锁等待超时异常（也印证了上面第7步 jstack日志中，很多 Mysql TIMED_WAITING 状态的问题）：

Error updating database. Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLTransactionRollbackException: Lock wait timeout exceeded; try restarting transaction#012### The error may involve com********.dao.iface.SessionRecordMapper.updateByPrimaryKey

这里的异常可能之前日期就有发生过，由于上面第8步，之前的info日志输出，可能导致了忽略关注，现在才看到；

10、分析Mysql Lock wait timeout exceeded异常:

com.mysql.jdbc.exceptions.jdbc4.MySQLTransactionRollbackException: Lock wait timeout exceeded：

这里的一行sql语句，执行update *** where 的时候，报错；先看一下这个表结构：

在表t_sys_session_rec中，sessionId是作为主键，主键是默认走索引的，并且在innodb引擎下，是支持行锁的；这一行数据，相同sessionId的情况，sql执行的并发量也不是很大，为什么会频繁出现等待锁超时呢？

找到执行sql的代码，updateByPrimaryKey方法：

找 updateSession调用的方法，在/ticket校验方法里面，用户每次过来校验ticket的时候，都会调用这个方法，更新updateSession：

就是这里，发生mysql锁频繁超时的地方，是否还有其它地方去竞争这行数据，t_sys_session_rec 这张表的资源呢？

11、发现定时任务在竞争表资源：

这个定时的大概思路是：每60秒执行一次，写一个线程监听，while(true)，然后一直轮询，查询数据库后台表t_sys_session_rec，当前时间now()，比update字段时间值，计算出来大于 overTime 6个小时的session记录，逐条置为无效

（这种定时任务执行方式不推荐）：

12，找到mapper.xml中的 sessionRecordMapper.selectAllWillExpireSession 方法：

上面where条件里面的createIp字段和updateTime字段并没有加索引，导致全表扫描，并且随着表中数据越来越多的情况下，导致了锁表情况发生，所以上面的 sessionRecordMapper.updateByPrimaryKey()方法才会发生锁等待超时；

（其实根源问题在于这里，由于这个锁表操作，/ticket接口的其它请求线程，是先获取redis连接，并且获取以后没有释放redis连接，然后再去获取mysql锁，由于拿不到mysql锁，并且redis连接池默认连接数8，并且mysql连接池设置的是100，所以先是redis连接不够用，在上面第5、第6步抛出了异常Could not get a resource from the pool at redis.clients.util.Pool.getResource）

13、解决方案：

开始想了一种简单解决方案，清除表中记录，createIp字段和updateTime字段增加索引，那么就不需要重启应用程序，让用户正常继续使用程序，但是能解决问题吗？

updateTime经常被更新，如果字段值经常被修改，那么每次数据库重建索引的开销也很大，短期来看，可以临时解决现在的问题，就算加了索引以后，这里的where条件查询对updateTime使用了函数计算，表达式，也会导致查询索引失效；

为了验证这一点，在测试环境，先给updateTime字段加上索引，去掉其它几个字段的where条件检索，然后explain执行一下sql语句，发现扫描的type 是 all：

（还有哪些情况会导致索引失效，可以参考这里：

https://blog.csdn.net/bless2015/article/details/84134361?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-5.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-5.nonecase）

所以最后的解决方案：是删除t_sys_session_rec记录表，把用户校验的ticket存取都用redis（这里涉及修改的代码就比较多了，不全贴出来）；

14、到这里还没有结束，由于还有内存占用过高的问题，继续从线上服务器导出堆dump文件分析：

jmap -dump:live,format=b,file=/data1/springBoot/heap.hprof pid

（上面的命令，是实时导出dump文件，会影响系统运行性能；还有另外一种导出dump文件方式，在java进程启动参数配置：

加上例如 -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/usr/local/heap.hprof，

完整启动参数：

JAVA_OPTS="$JAVA_OPTS -server -Xms3G -Xmx3G -Xss256k -XX:PermSize=128m -XX:MaxPermSize=128m -XX:+UseParallelOldGC -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/usr/local/heap.hprof -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:/usr/local/gc.log -XX:NewSize=1G -XX:MaxNewSize=1G"

这样在程序宕机之前，会给你生成一份dump文件，参考这篇博客：https://www.cnblogs.com/m2492565210/p/7498438.html）

15、使用jdk本地自带的jvisualvm工具，打开D:\Program Files\Java\jdk1.8.0_201\bin\jvisualvm.exe，分析dump出来的文件：点击文件，装入：

选择刚才dump出来的文件heap.hprof：

16、发现如下些对象，占用比例是最多的：

HashMap里面的Node对象内部类（HashMap$Node，HashMap底层其实就是Node对象组成的数组，Node是内部类），Hashtable对象里面的Entry内部类（Hashtable$Entry），还有char[]，byte[]，jdbc连接（Mysql Lock wait timeout exceeded 产生的过多对象侧面在这里印证了）等等，这些是占用内存最高，或者实例创建最多的对象：