GPU显存泄露/显存溢出/显存爆炸解决方案

行业边缘的摸鱼怪

已于 2023-08-07 19:14:38 修改

阅读量4.8k

点赞数 3

分类专栏： python bug解决方案文章标签： python pytorch

于 2023-08-07 17:36:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dream6985/article/details/132150467

版权

bug解决方案同时被 2 个专栏收录

66 篇文章

订阅专栏

43 篇文章

订阅专栏

本文讲述了作者在使用PyTorch进行强化学习时遇到的显存占用问题，通过逐行调试、常见错误对照和memory_profiler工具的应用，分享了如何定位并解决内存泄露的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述

最近在跑一个基于pytorch的强化学习代码，在训练过程中显存增大非常明显，迭代不到200个iteration就可以占据70G+的显存。由于博主是第一次在pytorch实现的强化学习算法上加入自己的实现，很没有应对经验，现将调试过程记录下来供有同样问题的人参考。

解决方案

1 通过逐行注释观察显存变化来确定到底是哪里出现了泄露

这个思想来自于[1]，原答主是这样回答的：

看上去很简单，但是非常有效，博主的bug就是这样找到泄露的地方的。找到了泄露的地方之后，就可以去查找对应的解决方案了（问度娘、看issues，balabala）。

2 查看常用错误对号入座

[2][3][4]记录了许多有关显存泄露的普遍错误，多与深度学习相关，感兴趣的读者可以看看，了解其中的原理，查看一下自己的代码有没有类似的错误。

3 使用显存使用展示工具memory_profiler

memory_profiler的下载链接如下：

memory-profiler · PyPI

可以使用以下指令进行安装：

pip install -U memory_profiler

在想进行分析的函数前面加上@profile，再运行

python -m memory_profiler example.py

即可打印出各行代码的内存占用结果。

附一个官方例子：

参考链接

[Debug记录] | Pytorch训练网络时出现内存泄漏 - 知乎

torch代码运行时显存溢出问题 - 简书

Tensor是如何让你的内存/显存泄漏的 - 知乎

PyTorch显存分析 - 知乎

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。