本片博文主要是对http://pytorch.org/docs/notes/autograd.html的部分翻译以及自己的理解,如有错误,欢迎指正!
Backward过程中排除子图
pytorch
的BP
过程是由一个函数决定的,loss.backward()
, 可以看到backward()
函数里并没有传要求谁的梯度。那么我们可以大胆猜测,在BP
的过程中,pytorch
是将所有影响loss
的Tensor
都求了一次梯度。**但是有时候,我们并不想求所有Tensor
的梯度。**那就要考虑如何在Backward过程中排除子图
(ie.排除没必要的梯度计算)。
如何BP
过程中排除子图? 这就用到了Tensor
中的一个参数requires_grad
requires_grad
:
import torch
x = torch.randn(5, 5)
y = torch.randn(5, 5)
z = torch.randn(5, 5), requires_grad=True)
a = x + y # x, y的 requires_grad的标记都为false, 所以输出的变量requires_grad也为false
a.requires_grad
False
b = a + z #a ,z 中,有一个 requires_grad 的标记为True,那么输出的变量的 requires_grad为True
b.requires_grad
True
变量的requires_grad
标记的运算就相当于or
。
如果你想部分冻结你的网络(ie.不做梯度计算),那么通过设置requires_grad
标签是非常容易实现的。
下面给出了利用requires_grad
使用pretrained
网络的一个例子,只fine tune
了最后一层。
model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
param.requires_grad = False
# Replace the last fully-connected layer
# Parameters of newly constructed modules have requires_grad=True by default
model.fc = nn.Linear(512, 100)
# Optimize only the classifier
optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)
# 第二种方法,将想要排除的子图使用 with torch.no_grad() 块包住就可以了
# 就不用费劲的将 所有的 leaf Parameter 搞成 requires_grad=False
- 直接用 detach 为什么不行,因为虽然detach可以保证梯度传不回去,但是原来的子图还是创建了的。
为什么要排除子图
也许有人会问,梯度全部计算,不更新的话不就得了。
这样就涉及了效率的问题了,计算很多没用的梯度是浪费了很多资源的(时间,计算机内存)