Github仓库:https://github.com/One-sixth/i-RevBackward
根据i-RevNet和pytorch checkpoint原理,编写了一组反向传播函数,正向传播时不保存临时变量,反传时利用i-RevNet可逆的方式恢复输入,然后在每一个区间内计算梯度,无需保存任何中间变量,从而实现大幅度节省显存的效果。
可逆块原理
forward 时
输入 x1, x2
y = x1 + F(x2)
输出 y, x2
invert 时
输入 y,x2
x1 = y - F(x2)
输出 x1, x2
1.可以与普通模块串接使用。
2.在使用可逆方法堆积残差块时,堆3个残差块与堆15个残差块所需的显存相差不超过200M。
3.你只需要按照非常简单的可逆规则编写一个可逆块,就可以立马节省你的显存。
可逆层编写可以参考 rev_layers.py,不过一般不需要用到可逆层,用一般模块即可。
可逆块编写可以参考 rev_blocks.py
不可逆的网络内穿插可逆块可以参考 rev_net.py
代码和示例都在仓库里
开始享受堆叠残差块而无需顾虑显存的快感把!
关于消耗时间差别
使用可逆包装后,训练一次消耗时间大概是普通网络的4/3 - 5/3
但考虑到节省显存后可以增加的批量,总时间估计是相差无几甚至略快的。