概述
在PyTorch中,loss.backward() 是反向传播的核心函数,它负责计算模型参数相对于损失函数的梯度。这个过程是基于自动微分(Automatic Differentiation,简称autodiff)技术实现的,具体来说是采用了反向模式的自动微分(Reverse-Mode AD)。
自动微分原理:
(1) 前向传播:首先,模型通过前向传播计算输出值。在这个过程中,PyTorch 会记录计算图(Computation Graph),这个计算图记录了从输入到输出的每一步运算及其依赖关系。每个张量(Tensor)都有一个.grad_fn属性,指向一个函数,这个函数描述了如何计算这个张量关于其输入的梯度。(loss产生的过程会有一张记录计算图)
(2) 反向传播:当调用 loss.backward() 时,PyTorch 开始反向遍历计算图。这个过程从损失函数开始,沿着图反向传播误差,计算每一个参与运算的张量关于损失的梯度。这是通过链式法则(Chain Rule)完成的,即将损失对某个中间变量的导数分解为其后续操作导数的乘积。(根据计算图反向传播)
(3)梯度计算:在反向传播过程中,每个运算都会计算其输出关于输入的梯度,并将这个梯度累积到输入张量的.grad属性中(如果是标量损失,它没有.grad属性)。这意味着如果一个张量被多个路径使用,它的.grad属性会累积从所有路径来的梯度。(张量计算过程)
(4) 梯度累加与同步:在分布式训练中,如果启用了梯度同步(例如使用DataParallel或DistributedDataParallel),PyTorch还会在所有设备之间同步计算出的梯度,确保每个参数的梯度是所有设备上相应梯度的平均值。
(5)梯度裁剪与优化:在反向传播完成后,用户通常会执行梯度裁剪以避免梯度爆炸问题,随后使用优化器(如SGD, Adam等)来更新模型参数,即执行optimizer.step()。这一步实际上根据计算出的梯度和优化算法更新参数。(loss=0,更新参数)
loss.backward()
self.optimizer.step()
self.scheduler.step()
self.optimizer.zero_grad()
前向传播(Forward Pass)
在前向传播过程中,PyTorch 记录所有操作以构建计算图
y = x * 2
z = y.mean()
w = z + y
反向传播(Backward Pass)
当我们调用 loss.backward() 时,PyTorch 会从计算图中的输出节点开始,沿着图的边缘向后遍历,并计算梯度。这一过程包括以下步骤:
(1)计算梯度:
PyTorch 会计算每个张量相对于最终标量输出(如损失)的梯度。
(2)链式法则(Chain Rule):
通过链式法则,PyTorch 会将局部梯度乘积从输出层向输入层传播。
z.backward()
只会影响x,y,z
拓展
在多分支任务下loss会根据对应的计算过程图找到返回的路径
18万+

被折叠的 条评论
为什么被折叠?



