pytorch中cuda out of memory问题

在组会前一天遇到这个问题,试了各种解决办法都不可以,简直要疯辽,还等着实验结果做汇报呢……
RuntimeError: CUDA out of memory. Tried to allocate 486.00 MiB (GPU 0; 10.73 GiB total capacity; 8.78 GiB already allocated; 23.62 MiB free; 1.07 GiB cached)
就是这个问题,很奇怪,不知道那1.07GiB到底是什么占了,一样的超参数设置,之前从来没有遇到过这种问题……
言归正传,遇到这个问题,看了很多博客。

  1. 第一种解决方法
    改小batch_size,在一定情况下是有用的。(但是我的已经改成1了,已经不能再小了)

  2. 第二种解决方法
    在报错的地方加上这一句torch.cuda.empty_cache(),这一句本来在我代码的epoch循环里就有了,为了避免错过潜在的解决方案,我还是试了一下,当然,没用……

  3. 第三种解决方法
    加上这一条语句with torch.no_grad():,很遗憾的是,在验证操作里或许是可以的,但是我的是训练操作出了问题……

  4. 第四种解决方法
    同样,也是在验证操作或者测试操作里加上这么一句model.eval(),同样,我本来的代码里就有了,而且在验证操作里,同样解决不了我的问题

  5. 第五种解决方法
    loss和评价指标强制转换为float()类型的,或者在每个epoch的最后,都将loss删掉。同样,也尝试了一番,然而,这错误还是倔强地不肯走……

后续又遇到过好几次这个问题,遇到的次数多了发现,只要有变量转移到cuda()上了,在用不到的时候(或者是循环里,在循环的最后也要删掉)都要用del删掉,不然可能会出现跑了几个甚至十几个epoch后还会出现Cuda out of memory的情况。
此外,还有一种关于loss可能会引发Cuda out of memory的情况,详见https://ptorch.com/news/160.html
6. 第六种解决方法
多用几块GPU,但是现在没有多余的GPU可以用……,而且,就算有多余的GPU,这GPU的利用率也不高啊,怎么能解决这个问题,充分地利用资源呢?
7. 针对我的代码中出现的问题
在我的代码里,除了在train()和validate()函数中有将数据放到cuda上的代码,在计算评价指标时,也有将数据放到cuda上的代码,或许是只能在训练或者验证的一开始就将数据放到cuda上,不能在中间过程中转移数据(不是很确定),但是将中间过程中有cuda()的地方,改为在cpu()上跑,问题就解决了,不然哪怕多用几块GPU,都还是报错
train()和validate()中涉及到cuda()的代码:

def train(args, train_loader, model, criterion, optimizer, epoch, scheduler=None):
    losses = AverageMeter()
    ious = AverageMeter()
    dices = AverageMeter()  # 多了一个dice
    model.train()

    for i, (input, target) in enumerate(train_loader):
        input = input.cuda()
        target = target.cuda()

def validate(args, val_loader, model, criterion):
    losses = AverageMeter()
    ious = AverageMeter()
    dices = AverageMeter()  # 多了一个dice
    # switch to evaluate mode
    model.eval()

    with torch.no_grad():
        for i, (input, target) in enumerate(val_loader):
            input = input.cuda()
            target = target.cuda()

除了这两部分,在计算评价指标时,我也用到了cuda()

def iou_score(predict, target):
    smooth = 1e-5
    # 先one-hot,再转换成(batch_size, -1)来求
    target = torch.eye(2)[target.long()]
    target = target.permute(0, 4, 1, 2, 3).float()
    # predict需要经过sigmoid
    predict = torch.sigmoid(predict)

    batch_size = predict.shape[0]
    predict = predict.contiguous().view(batch_size, -1)
    target = target.contiguous().view(batch_size, -1)
    predict = predict.cuda()
	target = target.cuda()
    intersection = (predict * target).sum()
    iou = (intersection + smooth) / (predict.sum() + target.sum() - intersection + smooth)

    return iou

上述代码的cuda()就是导致出错的地方。后将这两条语句删掉,改为放到cpu()上运行,就没问题了

def iou_score(predict, target):
    smooth = 1e-5
    # 先one-hot,再转换成(batch_size, -1)来求
    target = torch.eye(2)[target.long()]
    target = target.permute(0, 4, 1, 2, 3).float()
    # predict需要经过sigmoid
    predict = torch.sigmoid(predict)

    batch_size = predict.shape[0]
    predict = predict.contiguous().view(batch_size, -1)
    target = target.contiguous().view(batch_size, -1)

    predict = predict.data.cpu().numpy()
    target = target.data.cpu().numpy()

    intersection = (predict * target).sum()
    iou = (intersection + smooth) / (predict.sum() + target.sum() - intersection + smooth)

    return iou

### 回答1: PyTorch CUDA 内存不足 这个错误通常是由于您的 GPU 内存不足而导致的。您可以尝试以下方法来解决这个问题: 1. 减少批量大小:减少每个批次中的样本数量,以减少 GPU 内存的使用。 2. 减少模型大小:减少模型的参数数量,以减少 GPU 内存的使用。 3. 使用更大的 GPU:如果您的 GPU 内存不足,您可以尝试使用更大的 GPU。 4. 使用分布式训练:使用多个 GPU 进行分布式训练,以减少每个 GPU 的内存使用。 5. 使用梯度累积:将多个小批次的梯度累积到一个大批次中,以减少每个批次的内存使用。 希望这些方法能够帮助您解决 PyTorch CUDA 内存不足的问题。 ### 回答2: PyTorch是一种广泛使用的深度学习工具,尤其是在GPU上的加速,然而,当在进行深度学习训练时,开发者可能会遇到'CUDA out of memory'的报错。这个报错意味着GPU存储区已经无法容纳更多的数据了,导致无法继续进行深度学习训练。那么,如何解决这个问题呢? 一些常见的避免OutOfMemory问题的方法如下: 1. 降低batch size:降低batch size是最常用的方法来解决OutOfMemory问题。减少batch size能够减少GPU内存使用量。但这也会导致训练时间变慢,可能会减少准确性。 2. 将数据集分割成更小的块:如果无法在GPU上同时处理整个数据集,则可以将数据集分割成更小的块,每个块都小于GPU的总内存。这样做可以避免OutOfMemory错误并加速训练。 3. 对数据进行规范化:对数据进行规范化可以降低GPU存储区的使用率。例如,可以通过减去均值再除以标准差来标准化输入数据。 4. 使用更少的参数和层:使用较少的参数和层可以减少模型的复杂性和存储需求。但这也可能会对准确性产生影响。 5. 使用更大的GPU:如果您的GPU内存不足以容纳整个模型,则可以考虑使用更大的GPU。 6. 缓存的清除:在深度学习训练过程中,Python和机器学习库会存储大量的缓存信息。在GPU内存不足时,这些缓存将会占据GPU内存,因此在训练过程中及时清理缓存,可以释放更多的GPU内存,从而解决OutOfMemory问题。 总之,OutOfMemory错误在PyTorch中是一个常见的问题,但是通过采用上面的方法,您可以很容易地解决这个问题,确保深度学习训练顺利进行。 ### 回答3: Pytorch是一个非常强大的深度学习库,能够进行各种各样的深度学习算法和模型的创建和训练。在使用Pytorch进行深度学习任务时,很可能会遇到一个名为“cuda out of memory”的错误。 这个错误的意思是,GPU显存不足。在Pytorch中,当你使用GPU来训练你的模型时,你需要把模型和数据都放到GPU中。也就是说,Pytorch会在GPU显存中存储你的模型和数据,然后进行计算。如果你的GPU显存不足,计算就会失败,导致“cuda out of memory”错误。 如果你遇到了这个错误,有几种办法可以解决它: 1. 减少batch_size:通过减少每个batch中图像的数量来减小GPU显存的使用量,可以通过在DataLoader中设置batch_size参数实现。 2. 减少网络层数:如果你的网络非常复杂,导致GPU显存不足,可以尝试减少网络层数,或者调整一些网络结构参数来降低GPU显存使用量。 3. 使用更大显存的GPU:如果你有条件升级你的GPU,可以选择一款显存更大的GPU,这样就有更多的显存来存储你的模型和数据,从而避免“cuda out of memory”错误。 总之,遇到“cuda out of memory”错误并不意味着你的代码有问题,它只是表示你需要采取一些措施来优化你的训练过程,以确保GPU显存的充足。同时,Pytorch还提供了一些工具和API来帮助你查看GPU显存的使用情况,这也可以帮助你更好地理解你的代码和模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值