线上服务内存OOM解析步骤


前言

线上OOM Error, 无法创建新的线程问题:

最近线上网关 Spring Cloud GateWay 服务出现 OutOfMemoryError : unable to create new native Thread 异常问题,这个问题吧比较难以定位。因为网关服务是用的WebFlux 技术,当时初步认定为是 网关服务 Netty 堆外内存泄露导致的。但是经过后续层层定位排查发现是 nacos-client 不停创建线程导致服务机器无额外资源创建线程的根本问题。


一、定位服务器当前线程使用情况

线上异常日志

定位思路

# 1、先查看服务器最大可使用线程数 (u:表示最大可有线程数) 
[root@jboss02 ~]# ulimit -a
core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 72192
max locked memory       (kbytes, -l) 32
max memory size         (kbytes, -m) unlimited
open files                      (-n) 65535
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 10240
cpu time               (seconds, -t) unlimited
max user processes              (-u) 72192
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited

#2、获取当前正在执行的Java进程
[root@jboss02 ~]# jps -l
1 travel-youlu-gateway-service.jar
8101 sun.tools.jps.Jps

# 3、查看当前进程拥有线程数量
[root@jboss02 ~]# ps -eLf | grep <process_name_or_id> | wc -l
4 

二、补充额外 OOM 基础定位问题

1. dump 堆内存快照


[root@jboss02 ~]# jmap -dump:live,format=b,file=/path/to/heapdump.hprof <pid>

2.保存到本地使用 VisualVM 软件,定位内存溢出具体问题(示例)

示例图

三、本地可使用 Arthas 定位并解析问题

示例图

总结

上述步骤只是个人定位线上OOM的一些心得,可酌情采纳,勿喷。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值