auto gradient
本片博文主要是对http://pytorch.org/docs/notes/autograd.html的部分翻译以及自己的理解,如有错误,欢迎指正!
Backward过程中排除子图
pytorch
的BP
过程是由一个函数决定的,loss.backward()
, 可以看到backward()
函数里并没有传要求谁的梯度。那么我们可以大胆猜测,在BP
的过程中,pytorch
是将所有影响loss
的Variable
都求了一次梯度。但是有时候,我们并不想求所有Variable
的梯度。那就要考虑如何在Backward过程中排除子图
(ie.排除没必要的梯度计算)。
如何BP
过程中排除子图? Variable
的两个参数(requires_grad
和volatile
)
requires_grad
:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 1
- 2
- 3
- 4
- 5
- 6
- 7
False
- 1
- 2
- 1
- 2
True
变量的requires_grad
标记的运算就相当于or
。
如果你想部分冻结你的网络(ie.不做梯度计算),那么通过设置requires_grad
标签是非常容易实现的。
下面给出了利用requires_grad
使用pretrained
网络的一个例子,只fine tune
了最后一层。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
volatile
:
- 1
- 2
- 3
- 4
- 5
- 1
- 2
- 3
- 4
- 5
False
- 1
- 2
- 1
- 2
True
变量的volatile
标记的运算也相当于or
。
注意:volatile=True
相当于requires_grad=False
。但是在纯推断模式的时候,只要是输入volatile=True
,那么输出Variable的volatile
必为True
。这就比使用requires_grad=False
方便多了。
NOTE
:在使用volatile=True
的时候,变量是不存储 creator
属性的,这样也减少了内存的使用。
为什么要排除子图
也许有人会问,梯度全部计算,不更新的话不就得了。
这样就涉及了效率的问题了,计算很多没用的梯度是浪费了很多资源的(时间,计算机内存)