显存充足,但是却出现CUDA error:out of memory错误

 之前一开始以为是cuda和cudnn安装错误导致的,所以重装了,但是后来发现重装也出错了。

后来重装后的用了一会也出现了问题。确定其实是Tensorflow和pytorch冲突导致的,因为我发现当我同学在0号GPU上运行程序我就会出问题。

详见pytorch官方论坛:

https://discuss.pytorch.org/t/gpu-is-not-utilized-while-occur-runtimeerror-cuda-runtime-error-out-of-memory-at/34780

因此最好的方法就是运行的时候使用CUDA_VISIBLE_DEVICES限制一下使用的GPU。

比如有0,1,2,3号GPU,CUDA_VISIBLE_DEVICES=2,3,则当前进程的可见GPU只有物理上的2、3号GPU,此时它们的编号也对应变成了0、1,即cuda:0对应2号GPU,cuda:1对应3号GPU。

如何设置CUDA_VISIBLE_DEVICES:

① 使用python的os模块

import os

os.environ['CUDA_VISIBLE_DEVICES']='2, 3'

②直接设置环境变量(linux系统)

export CUDA_VISIBLE_DEVICES=2,3

 

分割线~~~~~


 猜测有可能是cuda和cudnn安装错误导致的,决定重装。

卸载CUDA

https://blog.csdn.net/huang_owen/article/details/80811738

https://blog.csdn.net/u014561933/article/details/79968580

由于之前使用的是deb安装,

sudo apt-get autoremove --purge cuda

卸载后,进入/usr/local,发现还残留有cuda的文件夹,据说是cudnn,但是我好像没发现??

进入cuda-9.0

删除文件夹

 

重新安装cuda

这次使用.run进行安装

https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html

安装完成

之前已经在/etc/profile添加过环境变量了

然后也安装补丁

 

安装cudnn

https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#installlinux

使用deb方式安装

并验证cudnn的安装是否成功

最后删掉该例程

最后解决了上述虚假报错的问题

 

转载于:https://www.cnblogs.com/jisongxie/p/10276742.html

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CUDA Error: out of memory是指在GPU运行过程中内存不足导致的错误出现这个错误的原因是,模型所需的显存超过了GPU的可用内存。这可能是因为模型太大或者输入数据的批次太大。为了解决这个问题,有几个方法可以尝试: 1. 将批次大小(batch size)减小:减小每个批次中的样本数量可以减少模型所需的显存。可以尝试减小批次大小直到不再出现内存不足的问题。 2. 使用item()属性提取torch变量的标量值:在计算过程中,确保只保留必要的变量,而不是保留整个计算图。当你需要提取torch变量的标量值时,使用item()属性而不是保留整个变量。这样可以释放一些显存。 3. 在测试阶段添加代码释放显存:在测试阶段,可以手动释放一些不再使用的显存。可以通过调用torch.cuda.empty_cache()来清空显存。这样可以为后续的计算释放一些显存空间。 请记住,这些方法不一定适用于所有情况。如果问题仍然存在,可能需要考虑使用更大的GPU或减小模型的规模。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [CUDA error: out of memory](https://blog.csdn.net/ayuuuuu/article/details/129376615)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [pytorch模型提示超出内存RuntimeError: CUDA out of memory.](https://download.csdn.net/download/weixin_38552305/14884908)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值