文章目录
前言
线上OOM Error, 无法创建新的线程问题:
最近线上网关 Spring Cloud GateWay 服务出现 OutOfMemoryError : unable to create new native Thread 异常问题,这个问题吧比较难以定位。因为网关服务是用的WebFlux 技术,当时初步认定为是 网关服务 Netty 堆外内存泄露导致的。但是经过后续层层定位排查发现是 nacos-client 不停创建线程导致服务机器无额外资源创建线程的根本问题。
一、定位服务器当前线程使用情况
定位思路
# 1、先查看服务器最大可使用线程数 (u:表示最大可有线程数)
[root@jboss02 ~]# ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 72192
max locked memory (kbytes, -l) 32
max memory size (kbytes, -m) unlimited
open files (-n) 65535
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 10240
cpu time (seconds, -t) unlimited
max user processes (-u) 72192
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
#2、获取当前正在执行的Java进程
[root@jboss02 ~]# jps -l
1 travel-youlu-gateway-service.jar
8101 sun.tools.jps.Jps
# 3、查看当前进程拥有线程数量
[root@jboss02 ~]# ps -eLf | grep <process_name_or_id> | wc -l
4
二、补充额外 OOM 基础定位问题
1. dump 堆内存快照
[root@jboss02 ~]# jmap -dump:live,format=b,file=/path/to/heapdump.hprof <pid>
2.保存到本地使用 VisualVM 软件,定位内存溢出具体问题(示例)
三、本地可使用 Arthas 定位并解析问题
总结
上述步骤只是个人定位线上OOM的一些心得,可酌情采纳,勿喷。