unable to create new native thread 问题处理

unable to create new native thread 问题处理

一、背景

生产实时集群部分节点的部分任务失败触发自动重启,通过查看失败任务的日志发现 " java.lang.OutOfMemoryError: unable to create new native thread "异常。

二、该问题产生可能原因

  • 内存不足
  • 机器线程数达到限制

三、处理过程

3.1 确认内存是否不足
  • 首先我们确认下是否是 内存不足原因导致的,登录异常任务节点通过 free -g命令查看机器可用内存是否充足;查看机器可用内存(available)是充足的,故排除机器内存。
[root@szzb-bg-prd-sdp-dn-xx ~]# free -g
              total        used        free      shared  buff/cache   available
Mem:            755         270          14           1         469         481
Swap:             0           0           0
  • 接着我们确认是否是 Flink 任务 JVM 内存不足,异常任务重启后观察一段时间 Flink JobManager / TaskManager JVM 内存使用率,查看 JVM 使用率不高,排除此项。
    在这里插入图片描述
    在这里插入图片描述
3.2 确认机器线程数达到限制
  • 首先确认系统级别的线程数,max user processes为 655350,已修改为较大值。
[root@szzb-bg-prd-sdp-dn-xx ~]# ulimit -a
core file size          (blocks, -c) unlimited
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 3092399
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 655350
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 8192
cpu time               (seconds, -t) unlimited
max user processes              (-u) 655350
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /etc/security/limits.conf 
# /etc/security/limits.conf
.....

# End of file
* soft nproc 655350
* hard nproc 655350
* soft nofile 655350
* hard nofile 655350
* soft core unlimited
* hard core unlimited
  • 接着查看某个进程的线程数设置是否生效,获取到进程的 PID 后,通过命令 cat /proc/PID/limits 查看PID 的线程数;发现与系统级别一致。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/29155/limits 
Limit                     Soft Limit           Hard Limit           Units     
Max cpu time              unlimited            unlimited            seconds   
Max file size             unlimited            unlimited            bytes     
Max data size             unlimited            unlimited            bytes     
Max stack size            8388608              unlimited            bytes     
Max core file size        unlimited            unlimited            bytes     
Max resident set          unlimited            unlimited            bytes     
Max processes             655350               655350               processes 
Max open files            655350               655350               files     
Max locked memory         65536                65536                bytes     
Max address space         unlimited            unlimited            bytes     
Max file locks            unlimited            unlimited            locks     
Max pending signals       3092399              3092399              signals   
Max msgqueue size         819200               819200               bytes     
Max nice priority         0                    0                    
Max realtime priority     0                    0                    
Max realtime timeout      unlimited            unlimited            us
  • 然后查看内核级别的 threads-max,通过命令 cat /proc/sys/kernel/threads-max 查看,已修改为较大值。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/sys/kernel/threads-max
6184799

# echo "kernel.threads-max = 6184799" >> /etc/sysctl.conf && sysctl -p
  • 最后查看内核级别的 pid_max ,通过命令 /proc/sys/kernel/pid_max 查看,当前值为9W。
[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/sys/kernel/pid_max
90000

通过命令cat /proc/loadavg 查看 当前的总线程数,当前值为 100734,是大于 pid_max 的,导致 "unable to create new native thread",需要修改 pid_max

[root@szzb-bg-prd-sdp-dn-xx ~]# cat /proc/loadavg 
15.23 15.75 17.25 13/100734 66544

# The first three columns measure CPU and IO utilization of the last one, five, and 10 minute periods. The fourth column shows the number of currently running processes and the total number of processes. The last column displays the last process ID used.
# 前三个数据表示 最近1分钟、5分钟、10分钟负载
# 第四个数据 分子表示正在运行的线程数,分母表示总线程数,该值会动态变化
# 最后一个数据表示 最近运行进程的PID

临时修改 pid_max 命令

echo 655350 > /proc/sys/kernel/pid_max

永久修改 pid_max命令(机器重启生效)

echo "kernel.pid_max = 655350" >> /etc/sysctl.conf && sysctl -p

修改pid_max后,观察一段时间后实时任务运行正常。

四、总结

  • 通过此次问题了解到 用户可创建的最大线程数 = min (max user processes, threads-max, pid_max)

    • max user processes 对应 ulimit -a
    • threads-max 对应 /proc/sys/kernel/threads-max
    • pid_max 对应 /proc/sys/kernel/pid_max
  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值