PyTorch 入坑四梯度、链式法则、计算图与反向传播

最新推荐文章于 2024-08-14 16:39:36 发布

龙俊杰的读书笔记

最新推荐文章于 2024-08-14 16:39:36 发布

阅读量1k

点赞数 2

分类专栏： PyTorch 文章标签： pytorch 深度学习机器学习

本文链接：https://blog.csdn.net/u011852872/article/details/120337391

版权

PyTorch 专栏收录该内容

10 篇文章 6 订阅

订阅专栏

PyTorch 一文入门

PyTorch 入坑四：计算图与反向传播

PyTorch 入坑四：计算图与反向传播

导数、梯度与最优化

方向导数与梯度

  笔者认为，梯度的概念是深度学习及最优化中核心的概念之一，精确的理解梯度的概念，对于理解反向传播的过程、优化过程及各种深度学习优化器的改进版具有很大的帮助，因此，本节将会用通俗的语言描述相关概念。
  首先是导数，对于一元函数来说，导数即为自变量单位变化时，函数值的变化量。比如距离对时间的导数为速度(单位时间的距离)，速度对时间的导数为加速度(单位时间内速度的变化量)
  多元函数的情况复杂一些，以二元函数为例(高纬函数可类比)，二元函数的图像可以在3D坐标系中可视化。因此：

偏导数：分别沿着x、y方向单位变化时，函数的变化量
方向导数：沿着xy平面某一方向变化时，函数的变化量
所谓梯度，是指这样的一个向量，他的方向等于方向导数中取到最大值的方向，梯度的模为方向导数的最大值。
换言之， 方向导数 ＝梯度与 方向余弦 的数量积 (梯度和方向余弦分别是向量，方向导数是标量)

接下来，有两个疑问：

为什么所有方向导数中会存在并且只存在一个最大值？而不是有多个最大值、或者说没有最大值？
这个最大值在哪个方向取得？值是多少？
详见：参考如何直观形象地理解方向导数与梯度以及它们之间的关系？

最优化

最优化问题的简洁介绍是什么
 常见最优化方法总结
 ADAm
深度学习中的优化算法
最常见的最优化方法：梯度下降法，即沿着梯度的方向更新待优化的变量。

复合函数求梯度

单变量与多变量的函数求梯度
在这里插入图片描述
神经网络中，x、y类似于网络待学习的参数，u、v为中间变量；z为loss。

计算图

计算图是用来描述运算的有向无环图
计算图有两个主要元素：结点（Node）和边（Edge）；结点表示数据，如向量、矩阵、张量；边表示运算，如加减乘除卷积等

用计算图表示： y = ( x + w ) ∗ ( w + 1 ) y = (x + w) * (w + 1) y=(x+w)∗(w+1)
令 a = x + w a=x+w a=x+w， b = w + 1 b=w+1 b=w+1， y = a ∗ b y=a*b y=a∗b，那么得到的计算图如下所示：

在这里插入图片描述
采用计算图来描述运算的好处不仅仅是让运算更加简洁，还有一个更加重要的作用是使梯度求导更加方便。举个例子，看一下y对w求导的一个过程。

PyTorch实战

使用PyTorch求解上述梯度问题为：

import torch

w = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True
a = torch.add(w, x)     # a = w + x
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * b

y.backward()    #对y进行反向传播

print(w.grad)   #输出w的梯度

得到的结果为5，证明了上面的结论。

在第一篇博文中讲张量的属性的时候，讲到与梯度相关的四个属性的时候，有一个is_leaf，也就是叶子节点，叶子节点的功能是指示张量是否是叶子节点。

叶子节点：用户创建的结点称为叶子结点，如X与W；
is_leaf：指示张量是否为叶子节点
设置叶子节点主要是为了节省内存，在梯度反向传播结束之后，非叶子节点的梯度都会被释放掉(如果想使用非叶子结点梯度，可以使用pytorch中的retain_grad())

例如对上面代码中的a执行相关操作a.retain_grad()，则a的梯度会被保留下来，具体的代码如下所示：

import torch

w = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True

a = torch.add(w, x)     # a = w + x
a.retain_grad()   #保存非叶子结点a的梯度，输出为tensor([5.]) tensor([2.]) tensor([2.]) None None
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * b

y.backward()    #对y进行反向传播
print(w.grad)   #输出w的梯度

#查看叶子结点
print("is_leaf:\n", w.is_leaf, x.is_leaf, a.is_leaf, b.is_leaf, y.is_leaf)

#查看梯度
print("gradient:\n", w.grad, x.grad, a.grad, b.grad, y.grad)

torch.Tensor中还有一个属性为grad_fn，grad_fn的作用是记录创建该张量时所用的方法（函数），该属性在梯度反向传播的时候用到。例如在上面提到的例子中，y.grad_fn = ，y在反向传播的时候会记录y是用乘法得到的，所用在求解a和b的梯度的时候就会用到乘法的求导法则去求解a和b的梯度。同样，对于a有a.grad_fn=，对于b有b.grad_fn=，由于a和b是通过加法得到的，所以grad_fn都是AddBackword0。可以通过代码观看各个变量的属性。w和x的grad_fn都是None，因为w和x都是用户创建的，没有通过任何方法任何函数去生成这两个张量，所以两个叶子节点的属性为None.

import torch

w = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度，所以requires_grad设置为True

a = torch.add(w, x)     # a = w + x
a.retain_grad()
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * b

y.backward()    #对y进行反向传播
print(w.grad)   #输出w的梯度

# 查看 grad_fn
print("grad_fn:\n", w.grad_fn, x.grad_fn, a.grad_fn, b.grad_fn, y.grad_fn)

#上面代码的输出结果为
grad_fn:
 None None <AddBackward0 object at 0x000001EEAA829308> <AddBackward0 object at 0x000001EE9C051548> <MulBackward0 object at 0x000001EE9C29F948>