显存充足但是CUDA out of Memory报错解决_查看僵尸进程

首先排除了是batchsize太大的原因,我从16改到了1,还是一直在OOM,而且更重要的是,前一天还是能跑的,今天就跑不了了55。

然后突然想到是不是僵尸进程的原因,僵尸进程是不会显示在nvidia-smi里的

去网上搜了搜怎么看僵尸进程的方法:fuser -v /dev/nvidia* 这条命令用不用sudo都行。

我看了两次,真让我找到两个叛徒。nvidia-smi里面根本没有它们。kill掉之后终于能跑啦
在这里插入图片描述
在这里插入图片描述

-------------------------------一些碎碎念--------------------------
好久没写了咳咳。
以后大概不会继续写论文阅读了,之前刚开始读论文总感觉读不太懂,所以写一遍加深印象。
现在慢慢步入正轨了(主要还是懒,写下来真的好麻烦OO)
以后大概是bug解决居多吧()

  • 8
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 当你在使用CUDA进行计算时,如果你的显存充足,那么就不会出现"CUDA out of memory"的错误。这个错误通常出现在你的显存不足以容纳你需要运算的数据时。为了解决这个问题,你可以考虑使用更大的显卡或者减少你的数据量。此外,你还可以尝试使用分批次处理的方法,将数据分成多个小批次进行运算,以减少显存的压力。 ### 回答2: “显存充足 cuda out of memory”的意思是指,在使用CUDA进行计算时,由于数据量过大或计算任务过于复杂使得显存空间不足,导致程序无法正常运行的现象。这一问题通常会影响许多需要使用GPU进行深度学习、图像处理等计算的应用程序。 要解决这个问题,首先需要确保你的显卡的显存足够。如果显存确实不足,那么仅仅扩大显存是不能解决问题的。解决此问题的关键解决办法是运用一些策略来降低显存的负载,或者在不影响结果的情况下减少显存的使用。 以下是一些可能有效的策略: 1. 使用更小的批次大小。较小的批次大小可能会带来一些训练时间方面的影响,但结果是不会受到影响的。 2. 通过优化模型来减少显存占用。这可以通过缩小模型大小或减少某些模型参数的数量来实现。 3. 在训练过程中减少不必要的计算。该策略可以减少显卡负载并提高训练速度。 4. 使用Google开源的TensorFlow框架的tf.data.Dataset API,使用Dataset.prefetch()方法预先载入好下一个batch的数据,减少I/O时间,可以减少显存的使用,增加训练速度。 总而言之,要在CUDA解决显存充足 CUDA Out of Memory”的问题,并非完全要求你增加显存,而是通过一些技巧性的策略来降低显存占用和负荷。如果你还遇到了一些类似问题,可以参考上述策略来解决。 ### 回答3: 当我们在使用CUDA程序进行计算时,有时会遇到“CUDA out of memory”这样的错误提示,这通常表示显存不足。这种情况下,我们需要想办法解决显存不足的问题。 首先,可以考虑优化显存使用。我们可以尝试使用更小的batch size以减少显存占用,或者使用更小的模型进行计算。还可以考虑使用更加高效的算法和数据结构,减少不必要的显存占用。 其次,我们可以考虑增加显存。这可以通过更换显卡、增加显存条或调整系统配置来实现。但我们需要注意的是,改变硬件配置可能会带来新的问题,而且显存的增加也并不总是能够解决问题。 此外,我们可以考虑使用多个GPU进行计算,从而增加可用的显存。这需要使用特定的深度学习框架和API,如Tensorflow、Pytorch、CUDA等。 最后,我们需要注意的是,在进行复杂的深度学习计算时,显存充足并不能完全保证不出现“CUDA out of memory”的错误。因此,我们需要对显存的使用进行合理规划和管理,以避免这种错误的出现,从而保证计算的正确性和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值