运行的程序总是莫名被 Killed

运行的程序总是莫名被 Killed

说明

本博客用于记录本人在Linux环境下训练模型时,程序莫名中断的解决方案。

问题描述

  1. 错误信息
    最近在Linux服务器上训练模型时,程序总是跑着跑着突然被中断掉,提示信息只有: xxx killed yyy,其中xxx是一个进程号,yyy是我的程序运行指令。

  2. 错误分析
    根据提示信息分析原因,应该是使用 kill 命令把进程杀掉了,这就有两个可能:一个是人为的,一个是非人为的。这里排除了人为的,在实习导师的帮助下,猜测可能是系统行为,通过执行 dmesg 命令,查看系统运行时的硬件检测信息,发现了一个红色的报错信息:

    [2773726.518243] oom-kill: constraint=CONSTRAINT_NONE,nodemask=(null),cpuset=/,mems_allowed=0-1,global_oom,task_memcg=/user.slice/user-1006.slice/user@1006.service,task=python,pid=2056028,uid=1006
    [2773726.518383] Out of memory: Killed process 2056028 (python) total-vm:35886116kB, anon-rss:2696748kB, file-rss:71476kB, shmem-rss:7653100kB, UID:1006 pgtables:24020kB oom_score_adj:0
    [2773726.708998] oom_reaper: reaped process 2056028 (python), now anon-rss:0kB, file-rss:74732kB, shmem-rss:7653132kB
    [2773732.593919] python invoked oom-killer: gfp_mask=0x100cca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0

    原来是内存爆了,服务器上同时跑了四个模型,每个模型都需要动态读取较大量的数据到内存中,导致内存不够。

解决方案

关掉几个模型,调小加载到内存中的数据量,或者加虚拟内存。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值