程序异常被kill收到SIGTERM信号,定位原因

在使用Pytorch训练模型的过程中,程序因收到SIGTERM信号而被终止。为找出问题源头,通过dmesg命令结合-T、grep和-B选项检查内核日志,尤其是关注与信号发送相关的上下文信息。此方法有助于诊断是否由外部进程或操作系统触发了信号,从而中断了模型训练。
摘要由CSDN通过智能技术生成

程序异常被kill,定位原因

使用pytorch训练模型,收到了对应的信号 SIGTERM,从而对应的信号处理 handler 被调用,最终使得程序运行的进程被终止。

由于输出显示程序收到了 SIGTERM 信号,所以尝试寻找发出对应信号的位置。由于发送信号需要经过操作系统 kernel,通过 dmesg 命令可以查看最近的内核操作(实际是输出了内核中记录行为的 kernel ring buffer 的内容)来查看是否存在相关的信息。

dmesg 的 -T 选项表示显示命令的操作时间。
grep:
-E 参数表示使用拓展的正则表达式进行匹配;
-i 参数表示忽略匹配的大小写问题;
-B num 参数表示在匹配行之前另外输出 num 行的数据,用来看是否有上下文的相关信息。

   dmesg -T | grep -E -i -B100 'killed process'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值