最近在ubuntu服务器上跑深度学习的训练程序,运行一段时间程序就会被kill,给实验带来了不少麻烦。作为linux小白,着实是被这个问题困扰了一段时间,现将最后成功的方法记录下来。
关于这类问题,最常见的原因是系统内存不足,触发了OOM killer。于是先用htop查看系统的资源使用情况:
发现系统内存仍然是充足的,但是所有CPU核心都是100%占用。所以应该不是内存不足的问题,而是因为CPU爆满了。CPU主要是被一批“python”进程占用了。尽管这批进程的启动命令都显示为“python”,但没有参数,看起来不像正常的程序。用kill -9命令杀死这些进程,发现过一段时间又会重新出现。由于服务器之前中过挖矿病毒,所以这次也怀疑是中了挖矿病毒。
用 “ll /proc/进程ID” 查看进程信息(由于中间曾经杀死过进程,这里截的两张图的进程ID号不同):