BUG:解决跑AI模型(非大模型)爆内存问题

最新推荐文章于 2024-05-28 20:51:53 发布

SpongeBob@Hefei

最新推荐文章于 2024-05-28 20:51:53 发布

阅读量640

点赞数 6

分类专栏： py bug 文章标签： bug 人工智能 loss

本文链接：https://blog.csdn.net/bigkaimyc/article/details/136811247

版权

py bug 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

问题描述:在跑各种不是很大的模型中，时常存在着爆内存的问题(即明明是一个不大的模型，但是运行会出问题)，这种问题分以下两种，附带解决方式

问题1: 爆GPU内存

问题报错描述:OutOfMemoryError: CUDA out of memory. Tried to allocate 186.27 GiB. GPU 0 has a total capacty of 12.00 GiB of which 7.12 GiB is free. Of the allocated memory 3.75 GiB is allocated by PyTorch, and 68.99 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

这种属于GPU的内存爆了，相当于想要把模型和数据放到GPU上时出现内存不足的情况。一般是由于将训练的数据一次性太大企图放到GPU上导致的。该问题出现的原因可能是由于以下类似代码造成的。
正确的代码应该是这样:

train_data = torch.Tensor(data[:batch_size])

然后实际中写成了这样:

train_data = torch.Tensor(data)

错误的将原本应该放入一个batch_size的数据放到gpu上，结果直接将整个数据集数据放到了GPU上，就会导致GPU的内存直接爆炸。

问题2:爆cpu内存

爆cpu内存分为两种可能，首先观察是否有测试部分(即对test测试集进行测试，若有可能是第2.1问题，若没有可能是2.2问题)

2.1 梯度下降导致的内存爆炸

在进行测试集测试时，要在测试集的开头加上

with torch.no_grad():

2.2 train_loss导致的内存爆炸

因为我们有的时候需要作图，所以我们会将训练过程中的loss放到一个列表中来，但是这样可能会导致内存占有的不断提升，因为往列表里放入train_loss，表明这个对象在一个list列表里面有用，则不会被释放掉空间，类似于会出现问题的代码如下所示:

train.append(train_loss)

改成如下代码即可避免这个问题:

train.append(train_loss.item())

找bug不易，点个赞再走吧

SpongeBob@Hefei

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
BUG:解决跑AI模型(非大模型)爆内存问题

提供了可能解决爆cpu内存问题和爆GPU内存问题的解法
复制链接

扫一扫

专栏目录