深度学习笔记4——误差反向传播法

逃离小星球

已于 2024-08-18 00:06:53 修改

阅读量731

点赞数 22

分类专栏：深度学习笔记文章标签：深度学习笔记人工智能

于 2024-08-18 00:00:52 首次发布

本文链接：https://blog.csdn.net/sandof/article/details/141289221

版权

深度学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

误差反向传播法

数值微分的运算速度

如果使用中心差分法求梯度，对每个权重参数求导时就需要进行两次Loss函数的运算，而这涉及了数百上千个神经元的多次重复运算，所以使用数值微分方法求梯度的效率很低。

从求导的链式法则说起

求导的链式法则 (Chain Rule)是微积分中一个非常重要的法则，用于求解复合函数的导数。如果一个函数是由两个或更多函数复合而成的，那么这个函数的导数可以通过链式法则来计算。

假设我们有两个函数 $f$ 和 $g$ ,它们都是可导的。如果我们定义一个复合函数 $h (x) = f (g (x))$ ,那么 $h$ 的导数 $h^{\prime}(x)$ 可以通过以下链式法则求得
$h'(x)=f'(g(x))\cdot g'(x)$
这里的 $f^{\prime}(g(x))$ 是外函数 $f$ 在 $g (x)$ 处的导数，而 $g^{\prime}(x)$ 是内函数 $g$ 在 $x$ 处的导数。

链式法则的直观理解是：当我们对复合函数求导时，我们首先对内函数 $g$ 求导，得到 $g^{\prime}(x)$ ,这可以看作是“局部变化率”。然后，我们考虑外函数 $f$ 在 $g (x)$ 处的导数 $f^{\prime}(g(x))$ ,这代表了 $g$ 的输出值每变化一个单位， $f$ 的输出值会如何变化。链式法则告诉我们，复合函数的导数就是这两个变化率的乘积。链式法则可以扩展到多个函数的复合情况。如果有多个函数 $f,g,h,\ldots$ 复合成 $k (x) =$
$f(g(h(\ldots(x))))$ ,那么 $k$ 的导数 $k^{\prime}(x)$ 可以按照以下方式求得：
$k'(x)=f'(g(h(\ldots(x))))\cdot g'(h(\ldots(x)))\cdot h'(\ldots(x))$
这里，每个函数的导数都是针对它前面的函数的输出值来计算的。

使用计算图理解误差反向传播法

计算图节点

$f$ 是计算图中的一个计算节点，它将输入的 $x$ 进行转换为 $y ， y = f (x)$ ,这一步称为正向传播。反之，从计算节点右侧输入值 $E$ ,那么计算节点将输出将信号 $E$ 乘以该计算节点的局部导数 $\frac{\partial y}{\partial x}$ ，这一操作称为反向传播。

如果反向输入的 $E$ 变化了 $\triangle E$ 则反向传播计算结果则变化了 $\triangle E \cdot \frac{\partial y}{\partial x}$

对于基本的运算过程：加减乘除

加法节点的反向传播

如图，对于加法节点， $z = x + y$ ,由于
$\begin{aligned}\frac{\partial z}{\partial x}&=1\\\\\frac{\partial z}{\partial y}&=1\end{aligned}$
反向输入值为 $\frac{\partial L}{\partial z}$ ,那么输出到各个支路的值则为 $\frac{\partial L}{\partial z}\cdot1$ 。

乘法节点的反向传播

如图，对于乘法节点， $z = x y$ ，由于
$\begin{aligned}\frac{\partial z}{\partial x}&=y\\\\\frac{\partial z}{\partial y}&=x\end{aligned}$
那么输出到各个支路的值则为 $\frac{\partial L}{\partial z}\cdot x$ ， $\frac{\partial L}{\partial z}\cdot y$ 。

对于稍微复杂一点的计算过程

比如Affine层的计算图（矩阵乘法）

Affine层的计算图

以矩阵为对象的反向传播，按矩阵的各个元素进行计算时，步骤和以标量为对象的计算图相同。实际写一下的话，可以得到下式

$\frac{\partial L}{\partial X}=\frac{\partial L}{\partial Y}\cdot W^\mathrm{T}$
$\frac{\partial L}{\partial\boldsymbol{W}}=\boldsymbol{X}^\mathrm{T}\cdot\frac{\partial L}{\partial\boldsymbol{Y}}$

在实际计算中，需注意矩阵的形状， $X$ 和 $\frac{\partial L}{\partial X}$ 形状相同， $W$ 和 $\frac{\partial L}{\partial W}$ 形状相同。

比如sigmoid函数， $h(x)=\frac{1}{1+\exp(-x)}$
它的计算图如下，包括了乘法，加法，除法以及指数函数
sigmoid函数的计算图
它的反向传播如下

sigmoid函数的反向传播

右侧输入 $\frac{\partial L}{\partial y}$
“/”节点表示 $y=\frac1x$ ,它的导数可以解析性地表示为下式。
$\begin{aligned}\frac{\partial y}{\partial x}&=-\frac1{x^2}\\&=-y^2\end{aligned}$
“exp”节点表示 $y=\exp(x)$ ,它的导数由下式表示。
$\frac{\partial y}{\partial x}=\exp(x)$
“×”节点将正向传播时的值翻转后做乘法运算。因此，这里要乘以−1。
最终，根据计算图的结果，我们获得了sigmoid函数反向传播的结果

$\begin{aligned} \begin{aligned}\frac{\partial L}{\partial y}y^2\exp(-x)\end{aligned}& \begin{aligned}&=\frac{\partial L}{\partial y}\frac{1}{(1+\exp(-x))^2}\exp(-x)\end{aligned} \\ &=\frac{\partial L}{\partial y}\frac1{1+\exp(-x)}\frac{\exp(-x)}{1+\exp(-x)} \\ &=\frac{\partial L}{\partial y}y(1-y) \end{aligned}$