深度学习反向传播简单流程

最新推荐文章于 2024-01-27 01:02:32 发布

阮松云

最新推荐文章于 2024-01-27 01:02:32 发布

阅读量911

点赞数

分类专栏：科研文章标签： pytorch 深度学习 tensorflow python

本文链接：https://blog.csdn.net/qq_39381361/article/details/124575518

版权

科研专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文通过详细解释和代码示例，展示了如何在PyTorch中使用反向传播计算梯度，以及如何处理常量和变量的梯度累积。重点讲解了`requires_grad`属性、`backward()`函数和`zero_grad()`的运用，适合初学者理解神经网络优化过程。

摘要由CSDN通过智能技术生成

反向传播简单例子：

import torch
 
a = torch.tensor([1.,2.,3.,4.], requires_grad=True)
b = a ** 2
print(b)
b.sum().backward()
print(a.grad)

### 输出 ###
tensor([ 1.,  4.,  9., 16.], grad_fn=<PowBackward0>)
tensor([2., 4., 6., 8.])

只有浮点数才能将requires_grad设置为True
只有标量值才能backward()，所以这里用了b.sum()，b.mean()也可以
a.grad即a的梯度，就是b对a的偏导（导数），这里可以看出a²求导结果为2a。

zero_grad()

a = torch.tensor([1.,2.,3.,4.], requires_grad=True)
b = a ** 2
print(b)
c = b + 2
print(c)
b.sum().backward(retain_graph=True)
#计算图在backward一次之后默认就消失，我们下面还要backward一次，所以需要retain_graph=True保存这个图。
print(a.grad)
c.sum().backward()
print(a.grad)

### 输出 ###
tensor([ 1.,  4.,  9., 16.], grad_fn=<PowBackward0>)
tensor([ 3.,  6., 11., 18.], grad_fn=<AddBackward0>)
tensor([2., 4., 6., 8.])
tensor([ 4.,  8., 12., 16.])

这里可以看出，第1次a.grad为2a，是对的，但是在c反向传播后第2次a.grad的输出是4a是不对的，需要清零梯度。

a = torch.tensor([1.,2.,3.,4.], requires_grad=True)
b = a ** 2
print(b)
c = b + 2
print(c)
b.sum().backward(retain_graph=True)
#计算图在backward一次之后默认就消失，我们下面还要backward一次，所以需要retain_graph=True保存这个图。
print(a.grad)
a.grad.zero_() # 新添加这句
c.sum().backward()
print(a.grad)

### 输出 ###
tensor([ 1.,  4.,  9., 16.], grad_fn=<PowBackward0>)
tensor([ 3.,  6., 11., 18.], grad_fn=<AddBackward0>)
tensor([2., 4., 6., 8.])
tensor([2., 4., 6., 8.])