代码问题
文章平均质量分 62
咔叽布吉
热爱生活
展开
-
【环境问题】清除僵尸进程 | 深度学习任务中止但是GPU仍在占用
把所有PID杀掉即可。如果还有其他进程再跑,还要确定一下有用进程的PID。我一般遇到这种是本地网络意外中断了,程序不见了,但是GPU仍在占用。原创 2024-09-19 17:23:36 · 379 阅读 · 0 评论 -
【代码问题】【Pytorch模型训练】断点续训与tmux使用
因此,即使本地网络断开,Tmux会话仍然会继续在本地计算机上运行,直到你手动关闭会话为止。这里的操作都是在linux黑窗口里,比如你ssh到vscode的话,就是vscode的终端,也可以用xshell链接。连接服务器需要挂载vpn或要保持网络链接,这样网络异常的时候就会白白耗时,针对于此,我的两种解决方案是。当你进入这个会话所在的窗口时,想返回主窗口而不关闭会话,就可以使用这个命令,还可以再进入。断点续训是在网络中断时,依据保存的信息,能够继续中断的训练,所以不仅保存。如果训练完成的话,就。原创 2024-04-24 17:41:23 · 647 阅读 · 0 评论 -
【代码问题】【Pytorch】训练模型时Loss为NaN或INF
排查的时候可以在关键节点增加断点,比如我的训练一个epoch时没问题,一个epoch训练完要进行验证的时候出现问题,所以打印出一个epoch的所有loss看怎么回事。我只遇到了第一个那种情况,所以我给出第一个的解决方法,其他的后续遇到再补充。原创 2024-04-23 17:43:00 · 456 阅读 · 0 评论 -
【代码问题】mmcv+mmseg版本升级报错
mmseg.ops迁移到了mmseg.models.utils中,所以直接。不行卸掉全部(mmcv+mmcv-full)重新安装。新版本的mmseg的utils没有get_root_logger。直接补上mmcv-full,安装好之后大概率就无了。改成:(这是直接用mmcv的logging,参考。不行就把mmcv都卸载掉重新安装。原创 2024-03-20 21:57:37 · 2837 阅读 · 1 评论