最近工作过程中,发现好几台服务器出现僵死进程(如图)。

点击查看原图 

  用下面的命令找出僵死进程

  ps -A -o stat,ppid,pid,cmd | grep -e '^[Zz]'

  命令注解:
-A 参数列出所有进程
-o 自定义输出字段 我们设定显示字段为 stat(状态), ppid(进程父id), pid(进程id),cmd(命令)这四个参数
因为状态为 z或者Z 的进程为僵尸进程,所以我们使用grep抓取stat状态为zZ进程
运行结果参考如下

点击查看原图

  这里一共出现了9个僵死进程,我们需要把它们都干掉,执行下面的命令

  kill -9 8310

  这时你再执行查找僵死的进程,发现所有僵死进程都没了.

  补充:

  最近又遇到了个问题,一台服务器上产生了100多少僵死进程,而且每一僵死进程的父进程都不一样,如果用上面的方法,一条一条的杀,那还不得累死我啊。
搞了条简单的命令,直接查找僵死进程,然后将父进程杀死

   ps -A -o stat,ppid,pid,cmd | grep -e '^[Zz]' | awk '{print $2}' | xargs kill -9

当然,也可以这样查看僵尸进程:

ps -ef |grep '<defunct>'

defunct的意思为已不存在

###

 

僵尸进程
当一个进程被结束,在它结束之前通常需要用一些时间去完成所有的任务(比如关闭打开的文件),在一个很短的时间里,这个进程的状态为僵尸状态。在进程完成所有关闭任务之后,会向父进程提交它关闭的信息。有些情况下,一个僵尸进程不能关闭它自己,这时这个进程状态就为z(zombie)。不能使用kill命令杀死僵尸进程,因为它已经标志为“dead”。如果你无法摆脱一个僵尸进程,你可以杀死它的父进程,这个僵尸进程也就消失了。然而,如果父进程是init进程,你不能杀死init进程,因为init是一个重要的系统进程,这种情况下你只能通过一次重新启动服务器来摆脱僵尸进程。也必须分析应用为什么会导致僵死?