深度学习反向传播简单流程

本文通过详细解释和代码示例,展示了如何在PyTorch中使用反向传播计算梯度,以及如何处理常量和变量的梯度累积。重点讲解了`requires_grad`属性、`backward()`函数和`zero_grad()`的运用,适合初学者理解神经网络优化过程。
摘要由CSDN通过智能技术生成

反向传播简单例子:

import torch
 
a = torch.tensor([1.,2.,3.,4.], requires_grad=True)
b = a ** 2
print(b)
b.sum().backward()
print(a.grad)

### 输出 ###
tensor([ 1.,  4.,  9., 16.], grad_fn=<PowBackward0>)
tensor([2., 4., 6., 8.])
  • 只有浮点数才能将requires_grad设置为True
  • 只有标量值才能backward(),所以这里用了b.sum(),b.mean()也可以
  • a.grad即a的梯度,就是b对a的偏导(导数),这里可以看出a²求导结果为2a。

zero_grad()

a = torch.tensor([1.,2.,3.,4.], requires_grad=True)
b = a ** 2
print(b)
c = b + 2
print(c)
b.sum().backward(retain_graph=True)
#计算图在backward一次之后默认就消失,我们下面还要backward一次,所以需要retain_graph=True保存这个图。
print(a.grad)
c.sum().backward()
print(a.grad)

### 输出 ###
tensor([ 1.,  4.,  9., 16.], grad_fn=<PowBackward0>)
tensor([ 3.,  6., 11., 18.], grad_fn=<AddBackward0>)
tensor([2., 4., 6., 8.])
tensor([ 4.,  8., 12., 16.])

这里可以看出,第1次a.grad为2a,是对的,但是在c反向传播后第2次a.grad的输出是4a是不对的,需要清零梯度。

a = torch.tensor([1.,2.,3.,4.], requires_grad=True)
b = a ** 2
print(b)
c = b + 2
print(c)
b.sum().backward(retain_graph=True)
#计算图在backward一次之后默认就消失,我们下面还要backward一次,所以需要retain_graph=True保存这个图。
print(a.grad)
a.grad.zero_() # 新添加这句
c.sum().backward()
print(a.grad)

### 输出 ###
tensor([ 1.,  4.,  9., 16.], grad_fn=<PowBackward0>)
tensor([ 3.,  6., 11., 18.], grad_fn=<AddBackward0>)
tensor([2., 4., 6., 8.])
tensor([2., 4., 6., 8.])

变量a相当于神经网络中的参数(需要求梯度并且更新),那些常量就相当于你的输入,不需要更新,所以不需要求梯度。

参考

https://zhuanlan.zhihu.com/p/416083478

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值