求导是几乎所有深度学习优化算法的关键步骤。深度学习框架通过自动计算导数,即自动微分来加快求导。
标量变量的反向传播
对函数 y = 2 x T x y=2x^Tx y=2xTx关于列向量 x x x求导
import torch
x=torch.arange(4.0)
print(f'x: {x}')
x.requires_grad_(True)
print(f'x.grad: {x.grad}')
y=2*torch.dot(x,x)
y.backward()
print(f'x.grad: {x.grad}')
x: tensor([0., 1., 2., 3.])
x.grad: None
x.grad: tensor([ 0., 4., 8., 12.])
一个标量函数关于向量 x x x的梯度是向量,并且与 x x x具有相同的形状(必须为浮点型变量才可以求梯度)
在计算 x x x的另一个函数时,需要清除累积的梯度
x.grad.zero_()
y=x.sum()
y.backward()
print(f'x.grad: {x.grad}')
x.grad: tensor([1., 1., 1., 1.])
非标量变量的反向传播
当 y y y不是标量时,向量 y y y关于向量 x x x的导数的最自然解释是一个矩阵。在高级机器学习中,我们会计算一批训练样本中每个组成部分的损失函数的导数。我们的目的不是计算微分矩阵,而是单独计算批量中每个样本的偏导数之和。
x.grad.zero_()
y=x*x
y.sum().backward()
print(f'x.grad: {x.grad}')
X=torch.arange(16.0).reshape(4,4)
X.requires_grad_(True)
Y=X*X
Y.sum().backward()
print(f'X.grad: {X.grad}')
x.grad: tensor([0., 2., 4., 6.])
X.grad: tensor([[ 0., 2., 4., 6.],
[ 8., 10., 12., 14.],
[16., 18., 20., 22.],
[24., 26., 28., 30.]])