深度学习基础7(正反向传播,计算图,自动微分,分离计算,控制流梯度计算)

本文介绍了深度学习中的计算图概念,详细阐述了正向传播和反向传播过程,以及自动微分的工作原理。通过实例展示了PyTorch中如何进行反向传播计算梯度,并讨论了非标量变量的反向传播、分离计算以及Python控制流的梯度计算。
摘要由CSDN通过智能技术生成

开始之前,补充一个关于梯度的图,方便记忆输入输出的形状

ND3(C`TK37)_}@9H(6$FIGF

计算图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5EAx5t85-1648204128476)(C:\Users\Lenovo\Documents\Tencent Files\850604703\FileRecv\MobileFile\Image)]VUT570@(9]KPE8(WQ})XQT.png)

自动求导的两种模式

正向积累

  • 存储中间结果

反向积累(又叫反向传递)

  • 去除不需要的枝

KSWSMIH1OIHLTU$FI80PD

关于复杂度:

)ZU~}1MW48YBP9OR

自动微分

深度学习框架通过自动计算导数,即自动微分(automatic differentiation)来加快求导。

实际中,根据我们设计的模型,系统会构建一个***计算图***(computational graph), 来跟踪计算是哪些数据通过哪些操作组合起来产生输出。

自动微分使系统能够随后反向传播梯度。

这里,反向传播(backpropagate)意味着跟踪整个计算图,填充关于每个参数的偏导数。

一个简单的例子

假设想对函数𝑦=2𝐱⊤𝐱关于列向量𝐱求导。 首先,创建变量x并为其分配一个初始值。

import torch

x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

在我们计算𝑦关于𝐱的梯度之前,我们需要一个地方来存储梯度。

重要的是,我们不会在每次对一个参数求导时都分配新的内存。 因为我们经常会成千上万次地更新相同的参数,每次都分配新的内存可能很快就会将内存耗尽。

注意,一个标量函数关于向量𝐱的梯度是向量,并且与𝐱具有相同的形状。

x.requires_grad_(True)  # 等价于x=torch.arange(4.0,requires_grad=True)
x.grad  # 默认值是
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NDNPOMDFLR

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值