pytorch多服务器训练GPU内存不足问题

最新推荐文章于 2024-09-27 10:19:25 发布

哪都通临时员工

最新推荐文章于 2024-09-27 10:19:25 发布

阅读量2.1k

点赞数 1

分类专栏： pytorch 问题集锦文章标签： GPU训练 nn.DataParallel CUDA_VISIBLE_DEVICES 多卡并行内存管理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fairy_v/article/details/115348254

版权

问题集锦同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

在多卡的GPU服务器，当我们在上面跑程序的时候，当迭代次数或者epoch足够大的时候，我们通常会使用nn.DataParallel函数来用多个GPU来加速训练。

在服务器上面用双卡训练不了的原因通常是代码当时并不支持双卡，只能占用单卡的显存，所以才会显示out of memory。需要在代码上加上一行。（train和test都要加，不然会报错）

在这里插入图片描述
GPU占用双卡的命令

CUDA_VISIBLE_DEVICES=0,1 nohup python train.py &

py文件里有以下代码也会导致只占用一个卡，删掉即可

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

哪都通临时员工

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

哪都通临时员工 CSDN认证博客专家 CSDN认证企业博客

码龄8年

39: 原创

6万+: 周排名

50万+: 总排名

6万+: 访问

: 等级

669: 积分

1964: 粉丝

62: 获赞

20: 评论

272: 收藏

私信

关注

热门文章

分类专栏

pytorch 15篇
教程 1篇
问题集锦 18篇
tensorflow 19篇
C++ 1篇
论文笔记 1篇
hdr 2篇

最新评论

解决问题：Unable to download ‘libfreeimage-3.16.0-linux64.so‘.
山鲁佐德7788: 请问.imageio是个空文件夹怎么办
clion无限重置试用插件
m0_63081818: 我是按你的步骤下载了那个插件并且点了每次启动自动跟新的选项，用了半个月，现在又跳出来了许可证还有14天到期，这个需要管他吗？
Ubuntu18.04安装 gcc4.9和g++4.9
m0_56907039: 手动配置完gcc版本还是没变啊
clion无限重置试用插件
xingshong: 出现了以下错误： [code=java] java.lang.NoClassDefFoundError: com/intellij/ide/util/PropertiesComponentImpl at io.zhile.research.intellij.ier.common.Resetter.getEvalRecords(Resetter.java:72) at io.zhile.research.intellij.ier.ui.form.MainForm.reloadRecordItems(MainForm.java:134) at io.zhile.research.intellij.ier.ui.form.MainForm.getContent(MainForm.java:99) at io.zhile.research.intellij.ier.tw.MainToolWindowFactory.createToolWindowContent(MainToolWindowFactory.java:23) at com.intellij.openapi.wm.impl.ToolWindowImpl.createContentIfNeeded(ToolWindowImpl.kt:548) at com.intellij.openapi.wm.impl.ToolWindowImpl.scheduleContentInitializationIfNeeded$intellij_platform_ide_impl(ToolWindowImpl.kt:527) at com.intellij.openapi.wm.impl.ToolWindowManagerImpl.doShowWindow(ToolWindowManagerImpl.kt:983) at com.intellij.openapi.wm.impl.ToolWindowManagerImpl.showToolWindowImpl(ToolWindowManagerImpl.kt:920) at com.intellij.openapi.wm.impl.ToolWindowManagerImpl.showToolWindowImpl$default(ToolWindowM [/code]
Tensorflow安装CUDA9.0
秃秃猿宝宝: 没有1.9版本呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。