Ubuntu 18.04, GTX 2080 显卡, Pytorch 训练深度学习模型, 会在运行一会儿(有时1分钟,有时10几分钟,不确定)后突然自动重启。
没有任何提示,没有任何日志。
nvidia-settings , psensor查看GPU, CPU温度都不是很高。
网上也没有找到很多相似的案例。 有的是玩游戏的时候重启,建议是换更大的电源。
这几个URL中的讨论时相关的。
system auto reboot when tensorflow model is too large - Stack Overflow
https://github.com/tensorflow/tensorflow/issues/8858
不看可能会翻车,显卡瞬时功耗及电源重启之谜 – FCPOWERUP极电魔方
尝试了一下其中的一