Ubuntu 训练深度学习模型的时候突然重启问题

Ubuntu 18.04, GTX 2080 显卡, Pytorch 训练深度学习模型, 会在运行一会儿(有时1分钟,有时10几分钟,不确定)后突然自动重启。 

没有任何提示,没有任何日志。 

nvidia-settings , psensor查看GPU, CPU温度都不是很高。

网上也没有找到很多相似的案例。 有的是玩游戏的时候重启,建议是换更大的电源。

这几个URL中的讨论时相关的。 

system auto reboot when tensorflow model is too large - Stack Overflow

https://github.com/tensorflow/tensorflow/issues/8858

不看可能会翻车,显卡瞬时功耗及电源重启之谜 – FCPOWERUP极电魔方

尝试了一下其中的一

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Ubuntu 上进行深度学习训练时,可以使用以下方法来暂停训练而不让其退出: 1. 使用 Ctrl + Z 暂停训练:在终端中运行训练命令时,按下 Ctrl + Z 可以将当前进程暂停,并返回到终端提示符。这样可以暂停训练过程,但是训练进程仍然存在于后台。 2. 使用 nohup 命令:可以使用 nohup 命令在后台运行训练过程,并将输出定向到一个文件中。例如: ```bash nohup python train.py > train.log & ``` 这将在后台运行 `train.py` 脚本,并将输出保存到 `train.log` 文件中。使用 `&` 符号可以使命令在后台运行。 3. 使用工具如 tmux 或 screen:tmux 和 screen 是用于在终端中创建多个会话的工具,可以在其中运行训练进程,并随时切换到其他会话或分离会话而不中断训练进程。这样可以方便地暂停和恢复训练。 例如,在使用 tmux 的情况下,可以执行以下步骤: - 运行 `tmux` 命令动一个新的 tmux 会话。 - 在 tmux 会话中运行深度学习训练命令。 - 按下 `Ctrl + B`,然后按下 `D` 将会话分离(detach)。 - 此时,训练进程将在后台继续运行,而你可以自由地退出终端或切换到其他会话。 - 当需要恢复训练时,可以使用 `tmux attach` 命令新连接到之前的会话,并查看训练进程的状态。 这些方法可以让你在训练过程中暂停训练而不让其退出。具体使用哪种方法,取决于你的偏好和具体情况。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曼车斯基

如果内容对你有用,赏杯咖啡吧!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值