最近工作过程中,发现好几台服务器出现僵死进程(如图)。
用下面的命令找出僵死进程
ps -A -o stat,ppid,pid,cmd | grep -e '^[Zz]'
命令注解:
-A 参数列出所有进程
-o 自定义输出字段 我们设定显示字段为 stat(状态), ppid(进程父id), pid(进程id),cmd(命令)这四个参数
-C 用来指定所执行的命令名称,你这里也就是让ps仅仅显示php命令所产生的进程的信息 ps -C java -o lstart,pid,cmd【不过貌似打印的不全~】 ps -A -o lstart,pid,args |grep java【这个可以的~】 因为状态为 z或者Z 的进程为僵尸进程,所以我们使用grep抓取stat状态为zZ进程
运行结果参考如下
这里一共出现了9个僵死进程,我们需要把它们都干掉,执行下面的命令
kill -9 8310
这时你再执行查找僵死的进程,发现所有僵死进程都没了.
补充:
最近又遇到了个问题,一台服务器上产生了100多少僵死进程,而且每一僵死进程的父进程都不一样,如果用上面的方法,一条一条的杀,那还不得累死我啊。
那么就应该想一条简单的命令,直接查找僵死进程,然后将父进程杀死~
ps -A -o stat,ppid,pid,cmd | grep -e '^[Zz]' | awk '{print $2}' | xargs kill -9
----------------------------------------------------------------------------------------------------------
不能随便杀父进程.
ps -aux 先找到僵死进程ID,如5031
lsof -p 5031看看僵死在什么地方,一般地讲死锁在某个文件或关联在某个进程
去除死锁文件或杀死相关联进程先-----------------------------------------------------------------------------------------------------------
用ps和grep命令寻找僵尸进程
ps -A -ostat,ppid,pid,cmd | grep -e '^[Zz]'
命令注解:
-A 参数列出所有进程
-o 自定义输出字段 我们设定显示字段为 stat(状态), ppid(进程父id), pid(进程id),cmd(命令)这四个参数
因为状态为 z或者Z的进程为僵尸进程,所以我们使用grep抓取stat状态为zZ进程
运行结果参考如下
Z 12334 12339 /path/cmd
这时,我们可以使用 kill -HUP 12339来杀掉这个僵尸进程
运行后,可以再次运行ps -A -ostat,ppid,pid,cmd | grep -e '^[Zz]'来确认是否已经将僵尸进程杀死
如果kill 子进程的无效,可以尝试kill 其父进程来解决问题,例如上面例子父进程pid是 12334,那么我们就运行
kill -HUP 12334
来解决问题