内存和显存_Pytorch节省内存(显存)的小技巧

075ad6936d72f0beb3740984473c1b02.gif

来自 | 知乎

链接 | https://www.zhihu.com/question/274635237

编辑 | 深度学习这件小事公众号

本文仅作学术交流,如有侵权,请联系删除

2fa550b53aefb32f7d4bc204f8fb757a.png

   提问

Pytorch有什么节省内存(显存)的小技巧?

在用pytorch实现一个tensorflow project的时候遇到了GPU显存超出 (out of memory) 的问题,不知道有什么优化方法。

   高质量回答

Lyken 愿以有涯随无涯 https://www.zhihu.com/question/274635237/answer/755102181 咦,大家都没看过陈天奇的 Training Deep Nets with Sublinear Memory Cost ( https://arxiv.org/abs/1604.06174 )吗? 训练 CNN 时,Memory 主要的开销来自于储存用于计算 backward 的 activation,一般的 workflow 是这样的 
61f12e2683c3cbe5d197d7d56f971198.gif Vanilla backprop
对于一个长度为 N 的 CNN,需要 O(N) 的内存。这篇论文给出了一个思路,每隔 sqrt(N) 个 node 存一个 activation,中需要的时候再算,这样显存就从 O(N) 降到了 O(sqrt(N))。
0973c1e105b9081d6e4c644dbfa19ced.gif Checkpointed backprop
对于越深的模型,这个方法省的显存就越多,且速度不会明显变慢。 0cc15f675f8e5aa04e05c84ea705659e.png PyTorch 我实现了一版,有兴趣的同学可以来试试  https://github.com/Lyken17/pytorch-memonger 郑哲东 计算机科学博士在读 https://www.zhihu.com/question/274635237/answer/573633662 在不修改网络结构的情况下, 有如下操作: 1. 同意 @Jiaming, 尽可能使用inplace操作, 比如relu 可以使用 inplace=True 。一个简单的使用方法,如下:
def inplace_relu(m):    classname = m.__class__.__name__    if classname.find('ReLU') != -1:        m.inplace=Truemodel.apply(inplace_relu)
2. 进一步,比如ResNet 和 DenseNet 可以将 batchnorm 和relu打包成inplace,在bp时再重新计算。使用到了pytorch新的checkpoint特性,有以下两个代码。由于需要重新计算bn后的结果,所以会慢一些。
  • https://github.com/gpleiss/efficient_densenet_pytorch

  • https://github.com/mapillary/inplace_abn

6be29ccef5c9215110c6dfc19a303a5e.png 3. 每次循环结束时 删除 loss,可以节约很少显存,但聊胜于无。可见如下issue: Tensor to Variable and memory freeing best practices: https://discuss.pytorch.org/t/tensor-to-variable-and-memory-freeing-best-practices/6000/2 4. 使用float16精度混合计算。我用过 @NVIDIA英伟达apex,很好用,可以节约将近50%的显存,但是要小心一些不安全的操作如 mean和sum,溢出fp16。 NVIDIA/apex( https://github.com/NVIDIA/apex ) 7b7cd757c03d8641ff0b19bd7b2e50dd.png 补充:最近我也尝试在我CVPR19的GAN模型中加入fp16的训练,可以从15G的显存需求降到约10G,这样大多数1080Ti等较为常见的显卡就可以训练了。欢迎大家star一波: https://github.com/NVlabs/DG-Net 5. 对于不需要bp的forward,如validation 请使用 torch.no_grad , 注意model.eval() 不等于 torch.no_grad() 请看如下讨论: https://github.com/NVlabs/DG-Net 6. torch.cuda.empty_cache() 这是del的进阶版,使用nvidia-smi 会发现显存有明显的变化。但是训练时最大的显存占用似乎没变。大家可以试试。 How can we release GPU memory cache? https://discuss.pytorch.org/t/how-can-we-release-gpu-memory-cache/1453 另外,会影响精度的骚操作还有: 把一个batchsize=64分为两个32的batch,两次forward以后,backward一次。但会影响 batchnorm等和batchsize相关的层。 相关链接: 老外写的提高pytorch效率的方法,包含data prefetch等 Optimizing PyTorch training code: https://www.sagivtech.com/2017/09/19/optimizing-pytorch-training-code/
为您推荐如何评价何恺明团队的最新工作RegNet?研究生从入门到放弃!不好意思老板,我这周没进展有了这个神器,轻松用 Python 写个 AppMIT最新深度学习入门课,安排起来!一个AI PhD的毕业随感
ea8356b88c160bec9047f80fbe50ce27.gif7ba673f43ccc1eb5fc478030c5452d6b.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值