前言:
Linux 内核有个机制叫OOM killer(Out-Of-Memory killer),该机制会监控那些占用内存过大,尤其是瞬间很快消耗大量内存的进程,为了防止内存耗尽而内核会把该进程杀掉。典型的情况是:某天一台机器突然ssh远程登录不了,但能ping通,说明不是网络的故障,原因是sshd进程被OOM killer杀掉了(多次遇到这样的假死状况)。重启机器后查看系统日志/var/log/messages会发现Out of Memory: Kill process 1865(sshd)类似的错误信息。
客户工单详情如下:
首先思考限制一个进程的创建条件涉及哪些方面资源的问题
进程无法创建了,可能原因,pid耗尽、open files等资源耗尽、内存耗尽、有充足的内存,但还是会触发OOM(是因为该进程可能占用了特殊的内存地址空间)
下面逐一展开分析
一、pid耗尽类
1、问题分析
查看当前进程数:ps -eLf | wc -l
查看pid_max数目:# sysctl kernel.pid_max
通过上述数值比较可确定是否是pid耗尽导致进程fork失败
2、解决方案
修改数目:sysctl -w kernel.pid_max=65535(适加较上次增加,64位系统上pid_max最大值为2^22,32位系统上最大值为32768)
#echo 1000000 > /proc/sys/kernel/pid_max 临时生效
#echo "kernel.pid_max=1000000 " >> /etc/sysctl.conf
#sysctl -p 永久生效
3、故障复现
a、查询pid_max值并修改(原来值挺大,为了测试改小点,模拟pid资源不足)
# sysctl kernel.pid_max
kernel.pid_max = 32768
# sysctl -w kernel.pid_max=500
kernel.pid_max = 500
b、创建自动fork进程脚本
f
c、编译后运行