为了节省显存,pytorch在反向传播的过程中只保留了计算图中的叶子结点的梯度值,而未保留中间节点的梯度,如下例所示:
import torch
x = torch.tensor(3., requires_grad=True)
y = x ** 2
z = 4 * y
z.backward()
print(x.grad) # tensor(24.)
print(y.grad) # None
可以看到当进行反向传播后,只保留了x的梯度tensor(24.),而y的梯度没有保留所以为None。
但有时我们需要得到模型中间变量的梯度(如绘制Grad-CAM图时),接下来介绍两种获取中间变量梯度的方法:
方法一:torch.autograd.grad(outputs, inputs)
可以看到此时x和y的梯度都可以获得,使用此方法时不用执行.backward()。