ubuntu mxnet joint training 机器反复重启

66 篇文章 1 订阅
12 篇文章 0 订阅
在Ubuntu 18.04LTS系统上进行MXNet模型的联合训练时,机器在迭代到4000/6000 batch后频繁重启。经过排查,排除了CPU和显卡温度过高等因素。机器配置包括TITAN RTX显卡和Intel Xeon Silver 4215R CPU。尝试的解决方案包括不在VNC中运行程序,连接备用电源,保留Xorg进程,限制显卡功率以及降低batch size,目前模型已连续运行21小时未重启。
摘要由CSDN通过智能技术生成

ubuntu 18.04LTS
迭代4000/6000 batch之后就会自动重启
从CPU温度,显卡温度等方面没有看出来原因


机器情况:
TITAN RTX * 6, 显卡功率 280x6=1680 W
主板:Supermicro X11DPG-OT
CPU:Intel® Xeon® Silver 4215R CPU @ 3.20GHz, 130x2=260W
电源:2000W/slot, 4 slots, 两主两备,配备=2x2000=4000W

故障排查(看不出错误):

$ dmesg|grep -i xid
$ dmesg|grep -i error
$ ipmitool sel list
$ nvidia-smi
$ iostat -mx2
$ ipmitool dcmi power reading

目前做法ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值