PyTorch 入坑四 梯度、链式法则、计算图与反向传播

PyTorch 入坑四:计算图与反向传播

导数、梯度与最优化

方向导数与梯度

      笔者认为,梯度的概念是深度学习及最优化中核心的概念之一,精确的理解梯度的概念,对于理解反向传播的过程、优化过程及各种深度学习优化器的改进版具有很大的帮助,因此,本节将会用通俗的语言描述相关概念。
      首先是导数,对于一元函数来说,导数即为自变量单位变化时,函数值的变化量。比如距离对时间的导数为速度(单位时间的距离),速度对时间的导数为加速度(单位时间内速度的变化量)
      多元函数的情况复杂一些,以二元函数为例(高纬函数可类比),二元函数的图像可以在3D坐标系中可视化。因此:

  • 偏导数:分别沿着x、y方向单位变化时,函数的变化量
  • 方向导数:沿着xy平面某一方向变化时,函数的变化量
          所谓梯度,是指这样的一个向量,他的方向等于方向导数中取到最大值的方向,梯度的模为方向导数的最大值。
  • 换言之, 方向导数梯度方向余弦 的数量积 (梯度和方向余弦分别是向量,方向导数是标量)

接下来,有两个疑问:

最优化

最优化问题的简洁介绍是什么
常见最优化方法总结
ADAm
深度学习中的优化算法
最常见的最优化方法:梯度下降法,即沿着梯度的方向更新待优化的变量。

复合函数求梯度

单变量与多变量的函数求梯度
在这里插入图片描述
神经网络中,x、y类似于网络待学习的参数,u、v为中间变量;z为loss。

计算图

  • 计算图是用来描述运算的有向无环图
  • 计算图有两个主要元素:结点(Node)和边(Edge);结点表示数据,如向量、矩阵、张量;边表示运算,如加减乘除卷积等

用计算图表示: y = ( x + w ) ∗ ( w + 1 ) y = (x + w) * (w + 1) y=(x+w)∗(w+1)
令 a = x + w a=x+w a=x+w, b = w + 1 b=w+1 b=w+1, y = a ∗ b y=a*b y=a∗b,那么得到的计算图如下所示:

在这里插入图片描述
采用计算图来描述运算的好处不仅仅是让运算更加简洁,还有一个更加重要的作用是使梯度求导更加方便。举个例子,看一下y对w求导的一个过程。
在这里插入图片描述
在这里插入图片描述

PyTorch实战

使用PyTorch求解上述梯度问题为:

import torch

w = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True
a = torch.add(w, x)     # a = w + x
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * b

y.backward()    #对y进行反向传播

print(w.grad)   #输出w的梯度

得到的结果为5,证明了上面的结论。

在第一篇博文中讲张量的属性的时候,讲到与梯度相关的四个属性的时候,有一个is_leaf,也就是叶子节点,叶子节点的功能是指示张量是否是叶子节点。

  • 叶子节点:用户创建的结点称为叶子结点,如X与W;
  • is_leaf:指示张量是否为叶子节点
  • 设置叶子节点主要是为了节省内存,在梯度反向传播结束之后,非叶子节点的梯度都会被释放掉(如果想使用非叶子结点梯度,可以使用pytorch中的retain_grad())

例如对上面代码中的a执行相关操作a.retain_grad(),则a的梯度会被保留下来,具体的代码如下所示:

import torch

w = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True

a = torch.add(w, x)     # a = w + x
a.retain_grad()   #保存非叶子结点a的梯度,输出为tensor([5.]) tensor([2.]) tensor([2.]) None None
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * b

y.backward()    #对y进行反向传播
print(w.grad)   #输出w的梯度

#查看叶子结点
print("is_leaf:\n", w.is_leaf, x.is_leaf, a.is_leaf, b.is_leaf, y.is_leaf)

#查看梯度
print("gradient:\n", w.grad, x.grad, a.grad, b.grad, y.grad)

torch.Tensor中还有一个属性为grad_fn,grad_fn的作用是记录创建该张量时所用的方法(函数),该属性在梯度反向传播的时候用到。例如在上面提到的例子中,y.grad_fn = ,y在反向传播的时候会记录y是用乘法得到的,所用在求解a和b的梯度的时候就会用到乘法的求导法则去求解a和b的梯度。同样,对于a有a.grad_fn=,对于b有b.grad_fn=,由于a和b是通过加法得到的,所以grad_fn都是AddBackword0。可以通过代码观看各个变量的属性。w和x的grad_fn都是None,因为w和x都是用户创建的,没有通过任何方法任何函数去生成这两个张量,所以两个叶子节点的属性为None.

import torch

w = torch.tensor([1.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True
x = torch.tensor([2.], requires_grad=True)  #由于需要计算梯度,所以requires_grad设置为True

a = torch.add(w, x)     # a = w + x
a.retain_grad()
b = torch.add(w, 1)     # b = w + 1
y = torch.mul(a, b)     # y = a * b

y.backward()    #对y进行反向传播
print(w.grad)   #输出w的梯度

# 查看 grad_fn
print("grad_fn:\n", w.grad_fn, x.grad_fn, a.grad_fn, b.grad_fn, y.grad_fn)

#上面代码的输出结果为
grad_fn:
 None None <AddBackward0 object at 0x000001EEAA829308> <AddBackward0 object at 0x000001EE9C051548> <MulBackward0 object at 0x000001EE9C29F948>

PyTorch中的动态图机制

  • 动态图:pytorch使用的,运算与搭建同时进行;灵活,易调节。
  • 静态图:tensorflow使用的,先搭建图,后运算;高效,不灵活。
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值