pytorch中cuda out of memory问题

Never_Jiao

已于 2022-04-06 18:07:33 修改

阅读量2.8w

点赞数 38

分类专栏： python&pytorch 文章标签：深度学习 python bug

于 2020-12-05 16:23:22 首次发布

本文链接：https://blog.csdn.net/Acmer_future_victor/article/details/110695324

版权

python&pytorch 专栏收录该内容

49 篇文章

订阅专栏

在组会前一天遇到这个问题，试了各种解决办法都不可以，简直要疯辽，还等着实验结果做汇报呢……
RuntimeError: CUDA out of memory. Tried to allocate 486.00 MiB (GPU 0; 10.73 GiB total capacity; 8.78 GiB already allocated; 23.62 MiB free; 1.07 GiB cached)
就是这个问题，很奇怪，不知道那1.07GiB到底是什么占了，一样的超参数设置，之前从来没有遇到过这种问题……
言归正传，遇到这个问题，看了很多博客。

第一种解决方法
改小batch_size，在一定情况下是有用的。（但是我的已经改成1了，已经不能再小了）
第二种解决方法
在报错的地方加上这一句torch.cuda.empty_cache()，这一句本来在我代码的epoch循环里就有了，为了避免错过潜在的解决方案，我还是试了一下，当然，没用……
第三种解决方法
加上这一条语句with torch.no_grad():，很遗憾的是，在验证操作里或许是可以的，但是我的是训练操作出了问题……
第四种解决方法
同样，也是在验证操作或者测试操作里加上这么一句model.eval()，同样，我本来的代码里就有了，而且在验证操作里，同样解决不了我的问题
第五种解决方法
loss和评价指标强制转换为float()类型的，或者在每个epoch的最后，都将loss删掉。同样，也尝试了一番，然而，这错误还是倔强地不肯走……

后续又遇到过好几次这个问题，遇到的次数多了发现，只要有变量转移到cuda()上了，在用不到的时候（或者是循环里，在循环的最后也要删掉）都要用del删掉，不然可能会出现跑了几个甚至十几个epoch后还会出现Cuda out of memory的情况。
此外，还有一种关于loss可能会引发Cuda out of memory的情况，详见https://ptorch.com/news/160.html
6. 第六种解决方法
多用几块GPU，但是现在没有多余的GPU可以用……，而且，就算有多余的GPU，这GPU的利用率也不高啊，怎么能解决这个问题，充分地利用资源呢？
7. 针对我的代码中出现的问题
在我的代码里，除了在train（）和validate()函数中有将数据放到cuda上的代码，在计算评价指标时，也有将数据放到cuda上的代码，或许是只能在训练或者验证的一开始就将数据放到cuda上，不能在中间过程中转移数据（不是很确定），但是将中间过程中有cuda（）的地方，改为在cpu（）上跑，问题就解决了，不然哪怕多用几块GPU，都还是报错
train()和validate()中涉及到cuda()的代码：

def train(args, train_loader, model, criterion, optimizer, epoch, scheduler=None):
    losses = AverageMeter()
    ious = AverageMeter()
    dices = AverageMeter()  # 多了一个dice
    model.train()

    for i, (input, target) in enumerate(train_loader):
        input = input.cuda()
        target = target.cuda()

def validate(args, val_loader, model, criterion):
    losses = AverageMeter()
    ious = AverageMeter()
    dices = AverageMeter()  # 多了一个dice
    # switch to evaluate mode
    model.eval()

    with torch.no_grad():
        for i, (input, target) in enumerate(val_loader):
            input = input.cuda()
            target = target.cuda()

除了这两部分，在计算评价指标时，我也用到了cuda()

def iou_score(predict, target):
    smooth = 1e-5
    # 先one-hot，再转换成(batch_size, -1)来求
    target = torch.eye(2)[target.long()]
    target = target.permute(0, 4, 1, 2, 3).float()
    # predict需要经过sigmoid
    predict = torch.sigmoid(predict)

    batch_size = predict.shape[0]
    predict = predict.contiguous().view(batch_size, -1)
    target = target.contiguous().view(batch_size, -1)
    predict = predict.cuda()
	target = target.cuda()
    intersection = (predict * target).sum()
    iou = (intersection + smooth) / (predict.sum() + target.sum() - intersection + smooth)

    return iou

上述代码的cuda（）就是导致出错的地方。后将这两条语句删掉，改为放到cpu()上运行，就没问题了

def iou_score(predict, target):
    smooth = 1e-5
    # 先one-hot，再转换成(batch_size, -1)来求
    target = torch.eye(2)[target.long()]
    target = target.permute(0, 4, 1, 2, 3).float()
    # predict需要经过sigmoid
    predict = torch.sigmoid(predict)

    batch_size = predict.shape[0]
    predict = predict.contiguous().view(batch_size, -1)
    target = target.contiguous().view(batch_size, -1)

    predict = predict.data.cpu().numpy()
    target = target.data.cpu().numpy()

    intersection = (predict * target).sum()
    iou = (intersection + smooth) / (predict.sum() + target.sum() - intersection + smooth)

    return iou