unable to create new native thread 问题处理
一、背景
生产实时集群部分节点的部分任务失败触发自动重启,通过查看失败任务的日志发现 " java.lang.OutOfMemoryError: unable to create new native thread "
异常。
二、该问题产生可能原因
- 内存不足
- 机器线程数达到限制
三、处理过程
3.1 确认内存是否不足
- 首先我们确认下是否是 内存不足原因导致的,登录异常任务节点通过
free -g
命令查看机器可用内存是否充足;查看机器可用内存(available)是充足的,故排除机器内存。
[root@szzb-bg-prd-sdp-dn-xx ~]# free -g
total used free shared buff/cache available
Mem: 755 270 14 1 469 481
Swap: 0 0 0
- 接着我们确认是否是 Flink 任务 JVM 内存不足,异常任务重启后观察一段时间 Flink JobManager / TaskManager JVM 内存使用率,查看 JVM 使用率不高,排除此项。
3.2 确认机器线程数达到限制
- 首先确认系统级别的线程数,
max user processes
为 655350,已修改为较大值。
[root@szzb-bg-prd-sdp-dn-xx ~]# ulimit -a
core file size (blocks, -c) unlimited
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 3092399
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 655350
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 655350
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /etc/security/limits.conf
# /etc/security/limits.conf
.....
# End of file
* soft nproc 655350
* hard nproc 655350
* soft nofile 655350
* hard nofile 655350
* soft core unlimited
* hard core unlimited
- 接着查看某个进程的线程数设置是否生效,获取到进程的 PID 后,通过命令
cat /proc/PID/limits
查看PID 的线程数;发现与系统级别一致。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/29155/limits
Limit Soft Limit Hard Limit Units
Max cpu time unlimited unlimited seconds
Max file size unlimited unlimited bytes
Max data size unlimited unlimited bytes
Max stack size 8388608 unlimited bytes
Max core file size unlimited unlimited bytes
Max resident set unlimited unlimited bytes
Max processes 655350 655350 processes
Max open files 655350 655350 files
Max locked memory 65536 65536 bytes
Max address space unlimited unlimited bytes
Max file locks unlimited unlimited locks
Max pending signals 3092399 3092399 signals
Max msgqueue size 819200 819200 bytes
Max nice priority 0 0
Max realtime priority 0 0
Max realtime timeout unlimited unlimited us
- 然后查看内核级别的
threads-max
,通过命令cat /proc/sys/kernel/threads-max
查看,已修改为较大值。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/sys/kernel/threads-max
6184799
# echo "kernel.threads-max = 6184799" >> /etc/sysctl.conf && sysctl -p
- 最后查看内核级别的
pid_max
,通过命令/proc/sys/kernel/pid_max
查看,当前值为9W。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/sys/kernel/pid_max
90000
通过命令cat /proc/loadavg
查看 当前的总线程数,当前值为 100734,是大于 pid_max
的,导致 "unable to create new native thread"
,需要修改 pid_max
。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/loadavg
15.23 15.75 17.25 13/100734 66544
# The first three columns measure CPU and IO utilization of the last one, five, and 10 minute periods. The fourth column shows the number of currently running processes and the total number of processes. The last column displays the last process ID used.
# 前三个数据表示 最近1分钟、5分钟、10分钟负载
# 第四个数据 分子表示正在运行的线程数,分母表示总线程数,该值会动态变化
# 最后一个数据表示 最近运行进程的PID
临时修改 pid_max
命令
echo 655350 > /proc/sys/kernel/pid_max
永久修改 pid_max
命令(机器重启生效)
echo "kernel.pid_max = 655350" >> /etc/sysctl.conf && sysctl -p
修改pid_max
后,观察一段时间后实时任务运行正常。
四、总结
-
通过此次问题了解到 用户可创建的最大线程数 = min (max user processes, threads-max, pid_max);
max user processes
对应ulimit -a
threads-max
对应/proc/sys/kernel/threads-max
pid_max
对应/proc/sys/kernel/pid_max