昨天在linux系统中训练数据时,训练到最后一步了,发现总是卡在那里,最后出现 killed 的信息,本来以为是代码有问题,后面发现是程序被系统给 kill 了,原因是内存不足。这是因为Linux 内核有个机制叫OOM killer(Out Of Memory killer),该机制会监控那些占用内存过大,尤其是瞬间占用内存很快的进程,然后防止内存耗尽而自动把该进程杀掉。
为了解决这个问题,我选择将占用内存较大的且不需要的进程给kill掉,将内存释放。
查看系统日志,可以看到被kill掉的进程的信息
# egrep -i -r 'killed process' /var/log
首先查看内存使用情况,从下图中可以看到最后一项可使用的内存还有2.9G
# free -h
接下来可以查看一下所有进程的信息,使用ps命令——查看静态的进程统计信息,下图中的PID代表的是进程的ID,PPID则是父进程的ID,SZ则是该进程所使用内存大小
# ps -elf
最后就是杀死进程了
# kill -9 PID