i-RevBackward,使用 i-RevNet 方法大幅度节省显存

Github仓库:https://github.com/One-sixth/i-RevBackward

根据i-RevNet和pytorch checkpoint原理,编写了一组反向传播函数,正向传播时不保存临时变量,反传时利用i-RevNet可逆的方式恢复输入,然后在每一个区间内计算梯度,无需保存任何中间变量,从而实现大幅度节省显存的效果。

可逆块原理
forward 时
输入 x1, x2
y = x1 + F(x2)
输出 y, x2
invert 时
输入 y,x2
x1 = y - F(x2)
输出 x1, x2

1.可以与普通模块串接使用。
2.在使用可逆方法堆积残差块时,堆3个残差块与堆15个残差块所需的显存相差不超过200M。
3.你只需要按照非常简单的可逆规则编写一个可逆块,就可以立马节省你的显存。

可逆层编写可以参考 rev_layers.py,不过一般不需要用到可逆层,用一般模块即可。
可逆块编写可以参考 rev_blocks.py
不可逆的网络内穿插可逆块可以参考 rev_net.py

代码和示例都在仓库里
开始享受堆叠残差块而无需顾虑显存的快感把!

关于消耗时间差别
使用可逆包装后,训练一次消耗时间大概是普通网络的4/3 - 5/3
但考虑到节省显存后可以增加的批量,总时间估计是相差无几甚至略快的。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值