pytorch——自动微分

求导是几乎所有深度学习优化算法的关键步骤。深度学习框架通过自动计算导数,即自动微分来加快求导。

标量变量的反向传播

对函数 y = 2 x T x y=2x^Tx y=2xTx关于列向量 x x x求导

import torch

x=torch.arange(4.0)
print(f'x: {x}')
x.requires_grad_(True)
print(f'x.grad: {x.grad}')
y=2*torch.dot(x,x)
y.backward()
print(f'x.grad: {x.grad}')

x: tensor([0., 1., 2., 3.])
x.grad: None
x.grad: tensor([ 0., 4., 8., 12.])

一个标量函数关于向量 x x x的梯度是向量,并且与 x x x具有相同的形状(必须为浮点型变量才可以求梯度)

在计算 x x x的另一个函数时,需要清除累积的梯度

x.grad.zero_()

y=x.sum()
y.backward()
print(f'x.grad: {x.grad}')

x.grad: tensor([1., 1., 1., 1.])

非标量变量的反向传播

y y y不是标量时,向量 y y y关于向量 x x x的导数的最自然解释是一个矩阵。在高级机器学习中,我们会计算一批训练样本中每个组成部分的损失函数的导数。我们的目的不是计算微分矩阵,而是单独计算批量中每个样本的偏导数之和。

x.grad.zero_()
y=x*x
y.sum().backward()
print(f'x.grad: {x.grad}')

X=torch.arange(16.0).reshape(4,4)
X.requires_grad_(True)
Y=X*X
Y.sum().backward()
print(f'X.grad: {X.grad}')

x.grad: tensor([0., 2., 4., 6.])
X.grad: tensor([[ 0., 2., 4., 6.],
[ 8., 10., 12., 14.],
[16., 18., 20., 22.],
[24., 26., 28., 30.]])

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值