多分支下loss.backward()过程与原理

最新推荐文章于 2025-09-03 01:00:00 发布

原创最新推荐文章于 2025-09-03 01:00:00 发布 · 1.2k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

loss原理

概述

在PyTorch中，loss.backward() 是反向传播的核心函数，它负责计算模型参数相对于损失函数的梯度。这个过程是基于自动微分（Automatic Differentiation，简称autodiff）技术实现的，具体来说是采用了反向模式的自动微分（Reverse-Mode AD）。

自动微分原理：
（1）前向传播：首先，模型通过前向传播计算输出值。在这个过程中，PyTorch 会记录计算图（Computation Graph），这个计算图记录了从输入到输出的每一步运算及其依赖关系。每个张量（Tensor）都有一个.grad_fn属性，指向一个函数，这个函数描述了如何计算这个张量关于其输入的梯度。（loss产生的过程会有一张记录计算图）

（2）反向传播：当调用 loss.backward() 时，PyTorch 开始反向遍历计算图。这个过程从损失函数开始，沿着图反向传播误差，计算每一个参与运算的张量关于损失的梯度。这是通过链式法则（Chain Rule）完成的，即将损失对某个中间变量的导数分解为其后续操作导数的乘积。（根据计算图反向传播）

（3）梯度计算：在反向传播过程中，每个运算都会计算其输出关于输入的梯度，并将这个梯度累积到输入张量的.grad属性中（如果是标量损失，它没有.grad属性）。这意味着如果一个张量被多个路径使用，它的.grad属性会累积从所有路径来的梯度。（张量计算过程）

（4）梯度累加与同步：在分布式训练中，如果启用了梯度同步（例如使用DataParallel或DistributedDataParallel），PyTorch还会在所有设备之间同步计算出的梯度，确保每个参数的梯度是所有设备上相应梯度的平均值。

（5）梯度裁剪与优化：在反向传播完成后，用户通常会执行梯度裁剪以避免梯度爆炸问题，随后使用优化器（如SGD, Adam等）来更新模型参数，即执行optimizer.step()。这一步实际上根据计算出的梯度和优化算法更新参数。（loss=0，更新参数）

					loss.backward()
                    self.optimizer.step()
                    self.scheduler.step()
                    self.optimizer.zero_grad()