【pytorch】mmdetection 做eval / test时弹出OOM（Out of Memory / CUDA out of memory）的解决过程记录

煎pan上的狸猫

已于 2022-02-05 18:54:08 修改

阅读量5.2k

点赞数 11

分类专栏：笔记文章标签： pytorch 深度学习神经网络 mmdetection 目标检测

于 2022-01-30 10:03:55 首次发布

本文链接：https://blog.csdn.net/weixin_42362903/article/details/122750216

版权

5 篇文章 0 订阅

订阅专栏

在用cascade RCNN进行训练的过程中，是不会发生OOM的，但是在做eval的时候（数据没有shuffle），每次做到第6批次数据的时候就会出现OOM如下图所示：
请添加图片描述

解决思路总结:

解决思路1: 调低batch_size
解决思路2:每次训练完清空cuda缓存
解决思路3:降低做预测时模型筛选出的预测框的数量
解决思路4:做eval时，把预测框的处理程序放在cpu和内存中

调低batch_size到1的时候并不能解决这个问题，只会在训练的时候，显存占用稍微低一些。

还是解决不了问题

做训练的时候会发现一个问题，随着训练过程的进行，训练占用的显存越来越多。

因此想，会不会在昨晚训练之后清空一下cuda的缓存，做eval就不会超出显存OOM了？ 下一个解决该问题的思路是在，清空cuda缓存上。

清空cuda缓存可以用torch.cuda.empty_cache()，但是该代码加在哪里，也是一个问题。

可以看到报错提示红框的部分，中文翻译过来就是“训练完一个epoch之后要做的事情”：
在这里插入图片描述
pytorch有hook机制，并且mmdetection封装了许多API，在调用函数建立模型的时候方便，但是需要寻找对应代码去修改比较麻烦。

找"after_train_epoch"函数比较麻烦，但是要找到调用它的这行代码比较简单。于是在它调用eval函数(after_train_epoch)之前，使用torch.cuda.empty_cache()，如下图。

在这里插入图片描述
该epoch_base_runner.py是在前一张图中红框错误提示的位置找到的。

训练过程中内存增加的问题解决了，但是做eval的时候还是会出现OOM。后面看了一些文章，有文章提到：

如果做eval预测框过多，那么可能会发生OOM

于是我在模型配置文件中降低了做eval时，模型把预测框筛选出来的数量。

把max_per_img的数量从1000调低到500
在这里插入图片描述

问题是解决了，但是在训练更大的模型的时候，内存也是够的，但只是做eval的时候会发生问题。

在训练更大的模型时，为了获得训练结果数据，每个epoch，都需要做eval，但是再进一步调低max_per_img的数量，可能会导致模型性能下降。

相较于前三种解决方法，第四种解决思路是从另外一个方向去入手。把从下图看，内存溢出的位置是在pytorch做数据处理的部分，所以想，如果把该部分数据放到CPU处理，处理完再放回GPU做数据的return，究竟能不能解决问题？

红框中相应路径的文件对应代码运行时OOM。
在这里插入图片描述也有可能是这样的路径，按照实际你显示的错误为准：

这个路径：“D:\mmdetection-2.20.0\mmdet\models\roi_heads\mask_heads\fcn_mask_head.py”

找到上图红框这个路径的这个文件，打开修改该部分如下图所示，注释的部分是原来文件中的代码：
在这里插入图片描述

顺利解决了问题，在做eval的过程中GPU显存没有溢出、没有大幅波动。但是处理大分辨率的图片时，速度会很慢。而且要注意内存、虚拟内存占用是否会大幅上升。如果内存不够，可以适当调大系统虚拟内存。

在这里插入图片描述

我硬盘够大，虚拟内存最大值调到了将近100GB

调完，按设置，按确定就可以了。

关注