释放pytorch占用的gpu显存_Pytorch有什么节省显存的小技巧？

最新推荐文章于 2024-09-14 21:36:12 发布

weixin_39517859

最新推荐文章于 2024-09-14 21:36:12 发布

阅读量379

点赞数

文章标签：释放pytorch占用的gpu显存

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39517859/article/details/113554825

版权

在不修改网络结构的情况下, 有如下操作：同意 @Jiaming , 尽可能使用inplace操作，比如relu 可以使用 inplace=True 。一个简单的使用方法，如下：

def inplace_relu(m):

classname = m.__class__.__name__

if classname.find('ReLU') != -1:

m.inplace=True

model.apply(inplace_relu)

2.进一步，比如ResNet 和 DenseNet 可以将 batchnorm 和relu打包成inplace，在bp时再重新计算。使用到了pytorch新的checkpoint特性，有以下两个代码。由于需要重新计算bn后的结果，所以会慢一些。

3. 每次循环结束时删除 loss，可以节约很少显存，但聊胜于无。可见如下issue

4. 使用float16精度混合计算。我用过 @NVIDIA英伟达 apex，很好用，可以节约将近50%的显存，但是要小心一些不安全的操作如 mean和sum，溢出fp16。

补充：最近我也尝试在我CVPR19的GAN模型中加入fp16的训练，可以从15G的显存需求降到约10G，这样大多数1080Ti等较为常见的显卡就可以训练了。欢迎大家star一波 https://github.com/NVlabs/DG-Net

5. 对于不需要bp的forward，如validation 请使用 torch.no_grad , 注意model.eval() 不等于 torch.no_grad() 请看如下讨论。

6. torch.cuda.empty_cache() 这是del的进阶版，使用nvidia-smi 会发现显存有明显的变化。但是训练时最大的显存占用似乎没变。大家可以试试。

另外，会影响精度的骚操作还有:

把一个batchsize=64分为两个32的batch，两次forward以后，backward一次。但会影响 batchnorm等和batchsize相关的层。

相关链接：老外写的提高pytorch效率的方法，包含data prefetch等

最后感谢大家看完～欢迎关注分享点赞～也可以check我的一些其他文章

weixin_39517859

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。