Backpropagation

最新推荐文章于 2023-12-09 17:40:11 发布

Tianweidadada

最新推荐文章于 2023-12-09 17:40:11 发布

阅读量394

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/Tianweidadada/article/details/103558691

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Backpropagation

1 Introduction

撰写本文的目的是清晰，完整而不是简洁。如果您只是想“即插即用”，请随时跳至“公式”部分。如果您熟悉符号表示法和神经网络的基础知识，但想逐步进行推导，只需阅读Derivation部分。不要被本文的篇幅或方程式的数量所吓倒！之所以很长，是因为它甚至包含了最简单的细节。

2 Specification

我们首先指定网络参数。前馈神经网络(NNs)是由输入层，隐藏层，输出层组成。只有一层输入层和一层输出层，但是隐藏层的数量是无限的。网络是“前馈”的，因为特定层中的节点仅连接到与其直接相连接的下层中的节点。以便输入层中的节点仅激活后续隐藏层中的节点，而后者又仅激活下一个隐藏层中的节点，依此类推，直到输出层。这种安排在图1中很好地说明了。注意，在图1中，特定层的每个节点都连接到后续层的每个节点，但这不是必需的。

关于本文中一些符号的定义：如果网络某一层有 $\in N$ 个节点，那么该层第 $j$ 个节点表示为 $j^{th}$ ，其中 $j\in\{0,1,...,J\}$ 。类似的， $i^{th}$ 表示第 $I$ 层的第 $i$ 个节点， $k^{th}$ 表示第 $K$ 层第 $k$ 个节点。

由于层与层之间并非总是全连接的。因此，影响第 $j$ 层的节点 $j^{th}$ 的可能只是来自第 $k$ 层一部分节点，也就是第 $k$ 层的子集。我们定义从第 $k$ 层到第 $j$ 层的这部分节点为 $K_j$ 。同理，我们可以定义从第 $j$ 层到第 $i$ 层的第 $j$ 层节点的子集节点为 $J_i$ ,反向传播中从第 $i$ 层到第 $j$ 层的第 $j$ 个节点 $j^{th})$ 可以表示为 $I_j$ 。（注意对 $K_j,J_i,I_j$ 的理解）。

在这里插入图片描述

图1：神经网络一部分，由三层网络构成

3 Neuron

如图2，通过通常是非线性的函数将其输入的加权总和经过激活函数，得到输出。这里可以分成两部分：（1）加权求和。（2）激活函数。
$x_j = \sum_{k \in {K_j}}w_{kj}y_k \tag{1}$
其中 $K_j$ 是来自第 $k$ 层连接到 $j^{th}$ 的节点集合。
$y_j = f(x_j) \tag{2}$

我们考虑以下几种激活函数， $f (\cdot)$ , $l i n e a r, t h r e s h o l d, s i g m o i d, G a u s s i a n$ 分别如下公式(3),(4),(5) ,(6)。

$\beta z \tag{3}$
$\left\{\begin{array}{cc} 1, & x \geq \theta\\ 0, & x < \theta \end{array}\right. \tag{4}$
$\frac{1}{1+e^{-{\gamma z}}} \tag{5}$
$exp\{-\frac{(z-u)^2}{\sigma^2}\} \tag{6}$

其中 $\beta,\theta,\gamma,\delta,\mu$ 是激活函数 $f (\cdot)$ 的参数用于控制激活函数"shape"。

4 The sigmoid and its Derivative

在下面介绍的Backpropagation算法中，我们将使用 $s i g m o i d$ 函数作为激活函数。使用 $s i g m o i d$ 的主要原因是 $s i g m o i d$ 函数有很多好的数学特性。简单起见，我们把公式（5）中的 $\gamma$ 设置为 1，并对其进行求导。
$\begin{aligned} \frac{df(z)}{dz} &= \frac{0\cdot(1-e^{-z})-(-e^{-z})}{(1+e^{-z})^2} \\ &= \frac{1}{1+e^{-z}}(\frac{e^{-z}}{1+e^{-z}}) \\ &= \frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}}) \\ &=f(z)(1-f(z)) \end{aligned} \tag{7}$
这样简洁的求导结果将简化下面的推导过程。
在这里插入图片描述

图2 多个神经元对来自第

k

层的输入加权求和，并通过激活函数

f(\cdot)

得到输出

y_j

5 Interpretation of the Algorithm

监督学习算法试图通过改变网络参数值来最小化输出 $(o u t p u t)$ 与目标 $(t a r g e t)$ 之间的误差。Backprop是一种迭代算法，这意味着我们不会一次更改所有权重，而是逐步更改权重，我们应该改变多少重量？一个自然的答案是：与对误差的影响成正比；权重 $w_m$ 的影响越大，通过改变权重 $w_m$ 导致的误差减少得越大，因此我们的学习算法应该对该权重进行更大的改变。当然，这种影响都不尽相同：更改任何特定的权重通常都会或多或少的影响其他权重，包括我们已更改的权重。

6 Derivation

在准备推导算法时，我们需要定义一个误差度量。直观上，误差是输出节点的实际激活值（ $y_j$ ）与该节点的期望（“目标”）激活（ $t_j$ ）之间的差异。总误差是每个输出节点的这些误差的总和。此外，由于我们希望负误差和正误差不会互相抵消，因此我们在求和之前对这些差异求平方。为了下面求导方便，我们在误差项前乘上常量因子 $\frac{1}{2}$ ：
$E:=\frac{1}{2}\sum_{j=1}^{J}(t_j-y_j)^2 \tag{8}$

注意：上述公式是假设第 $j$ 层为输出层时才成立的（误差是在输出层计算）。

我们希望通过求出损失函数 $E$ 对某个连接参数 $w_{kj}$ 的微分，以便根据 $\ Descent$ 对该参数进行更新。该过程可以用如下公式表示：
$\bigtriangleup w_{kj} = -\alpha \cdot \frac{\partial E}{\partial w_{kj}} \tag{9}$ 其中 $\alpha$ 是学习率,负号表示权重变化是朝着减少误差的方向。求出梯度后即可根据(10)进行参数更新
$w_{kj} = w_{kj} -\alpha \cdot \frac{\partial E}{\partial w_{kj}} \tag{10}$
据链式求导法则 $\ rule$ ,我们可以得到：
$\frac{\partial E}{\partial w_{kj}} = \frac{\partial E}{\partial y_j} \frac{\partial y_j}{\partial x_j} \frac{\partial x_j}{\partial w_{kj}} \tag{11}$

由 $Eq.\ (1)$ 可以得到：
$\frac{\partial x_j}{\partial w_{kj}} = y_k \tag{12}$
我们使用 $s i g m o i d$ 函数作为激活函数，因此有：
$\frac{\partial y_j}{\partial x_j} = f(x_j)\cdot(1-f(x_j))=y_j(1-y_j) \tag{13}$

比较麻烦的地方在于求 ${\frac{\partial E}{\partial y_j}}$ ,我们需要分成两种情况来讨论：

（1）当第 $j$ 层是输出层时: 此时可以之间根据 $Eq.\ 8$ 得到：
$\frac{\partial E}{\partial y_j} = -(t_j-y_j) \tag{14}$
结合 $E q s$ (12),(13),(14)。我们可以得到 $\ 11$ 的结果如下： $\frac{\partial E}{\partial w_{kj}}=-(t_j-y_j)y_j(1-y_j)y_k \tag{15}$

（2）当第 $j$ 层是隐藏层时:此时我们需要考虑误差是如何通过第 $j$ 层传播到下一层，即第 $i$ 层的。这里我们需要用到多变量的链式求导法则（ $\ calculus$ ）。为了求出 $\frac{\partial E}{\partial w_{kj}}$ ( $E q . 11$ ),我们只需要求出 $\frac{\partial E}{\partial y_j}$ 。我们可以把 $\frac{\partial E}{\partial y_j}$ 通过下一层(第 $i$ 层)表示出来：
$\frac{\partial E}{\partial y_j} = \sum_{i \in I_j}\frac{\partial E}{\partial y_i}\frac{\partial y_i}{\partial x_i}\frac{\partial x_i}{\partial y_j} \tag{16}$
其中 $I_j$ 表示第 $i$ 层中与第 $j$ 层的第 $j$ 个节点 ( $j^{th}$ )相关连的节点。可以看出， $\frac{\partial E}{\partial y_j}$ 是通过下一层的节点求出的（如果下一层是输出层，则直接根据 $\ 8$ 求出结果，否则按照上述方式递归进行，直到输出层），这正是Backpropagation的核心所在。
由 $\ 1$ :
$\frac{\partial x_i}{\partial y_j} = w_{ji} \tag{17}$

注： $w_{ji}$ 表示节点 $j$ 到节点 $i$ 连边权重。

为了简化表述，我们用 $\delta_j$ 表示下式：
$\delta_j := \frac{\partial E}{\partial y_j}\frac{\partial y_j}{\partial x_j} \tag{18}$
那么我们可以根据 $E q s .$ (17),(18) 把 $\ 16$ 表示如下：
$\frac{\partial E}{\partial y_j} = \sum_{i \in I_j}\delta_i w_{ji} \tag{19}$
至此，我们已经把 $\frac{\partial E}{\partial y_j}$ 表示出来，那么我们的目标 $\frac{\partial E}{\partial w_{kj}}$ ，也就是 $\ 11$ 就可以表示如下：
$\begin{aligned} \frac{\partial E}{\partial w_{kj}} &= \frac{\partial E}{\partial y_j} \frac{\partial y_j}{\partial x_j} \frac{\partial x_j}{\partial w_{kj}} \\ &=\frac{\partial E}{\partial y_j}\cdot y_j(1-y_j)y_k \\ &= \sum_{i \in I_j}(\delta_i w_{ji})\cdot y_j(1-y_j)y_k \end{aligned} \tag{20}$

注意： $\ 20$ 是当第 $j$ 层不是输出层时候的表示方式。

我们也可以把第 $j$ 层是输出层时（情况1）用 $\delta_j$ 表示：
$\frac{\partial E}{\partial w_{kj}} = \delta_jy_k \tag{21}$

7 Summary

对于 $\frac{\partial E}{\partial w_{kj}}$ ，我们的核心问题是求出 $\frac{\partial E}{\partial y_j}$ 。
当第 $j$ 层是输出层时：
$\delta_j:=-(t_j-y_j)y_j(1-y_j) \tag{22}$

当第 $j$ 层不是输出层时:
$\delta_j = (\sum_{i \in I_j}\delta_iw_{ji})y_j(1-y_j) \tag{23}$
注：其中 $\delta_j$ 可以看作误差项。

我从 $\ 23$ 我们可以看出，计算隐藏层节点误差项 $\delta_j$ 时，需要提前计算出下一层节点的误差项 $\delta_i$ ，这一过程将持续到输出层，输出层误差项可以用 $\ 22$ 计算。因此，整个计算过程必须使用反向传播算法( $B a c k p o r p a g a t i o n$ )，从输出层开始，到第一个隐藏层结束。正是这种误差项的向后传播，才有反向传播算法的名称。