反向传播算法

最新推荐文章于 2024-07-24 14:54:00 发布

elie_001

最新推荐文章于 2024-07-24 14:54:00 发布

阅读量378

点赞数

分类专栏：基础算法文章标签：数学算法

本文链接：https://blog.csdn.net/elie_001/article/details/49301355

版权

基础算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

反向传播算法

约定

首先我们对数学符号做一些约定。

粗体的小写字母表示列向量，如 $\renewcommand{\vec}[1]{\boldsymbol{#1}} \vec{x}, \vec{x}^i, \vec{\delta}$ 等；
粗体的大写字母表示矩阵，如 $\vec{A},\vec{W}, \vec{\Delta}$ 等；
常规字体表示标量或函数，如 $\alpha, i, x_p^j, f$ 等；
当 $\vec{x}$ 表示神经网络的某一层的激活前的值时，我们用 $\overline{\vec{x}}$ 表示激活后的值；
上标指示神经网络的层数。例如 $\vec{x}^{i}$ 表示神经网络的第 $i$ 层的激活前的值；
下标作为向量或矩阵的索引，例如 $x_i$ 表示向量 $\vec{x}$ 的第 $i$ 个元素， $W_{ij}$ 表示矩阵 $\vec{W}$ 的 $(i,j)$ 元; $\vec{W}_{\cdot, i}$ 表示矩阵 $\vec{W}$ 的第 $i$ 列， $\vec{W}_{i,\cdot}$ 表示矩阵 $\vec{W}$ 的第 $i$ 行；为简单起见， $\vec{W}_{i,\cdot}$ 可简记为 $\vec{W}_{i}$ ;
左上标指示样本实例，例如 $\newcommand{\leftsuperscript}[2]{{\,{}^{#1}\!#2}} \leftsuperscript{i}{\vec{x}}$ 表示第 $i$ 个实例。
以上表示是可以组合的，如果组合后有意义的话。例如 $\overline{\leftsuperscript{j}{\vec{x}}^{i}}$ 表示输入第 $j$ 个实例时，神经网路的第 $i$ 层的输出。

标准前馈神经网络

我们首先考虑简单的情况：前馈神经网络，如图 $\ref{fig:mlp}$ 所示。我们先假设任意两层之间没有权值共享。方向传播算法本质上就是梯度下降算法，所以我们要对损失函数关于每个参数求导。设单个输入实例 $\vec{x}$ 损失函数为 $J(x)$ , 那么我们要求解 $\frac{\partial J}{\partial\vec{W}^{i}}$ 和 $\frac{\partial J}{\partial\vec{b}^i}$ , $i=1,2,\dots,n$ . 对 $J$ 关于 $\vec{b}^i$ 求导是容易的，直接使用链式法则
$图一$

\partial J \partial b i = \partial x i \partial b i \cdot \partial J \partial x i = I \partial J \partial x i = \partial J \partial x i (1)

$% \label{eq:diff_bi} \dfrac{\partial J}{\partial \vec{b}^{i}} = \dfrac{\partial \vec{x}^i}{\partial \vec{b}^{i}} \cdot \dfrac{\partial J}{\partial \vec{x}^{i}} =\mathrm{\vec{I}}\dfrac{\partial J}{\partial \vec{x}^{i}} =\dfrac{\partial J}{\partial \vec{x}^{i}} \tag{1}$
我们可以证明

\partial J \partial W i = \partial J \partial x i x (i - 1) ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ T (2)

$\dfrac{\partial J}{\partial \vec{W}^{i}} = \dfrac{\partial J}{\partial \vec{x}^{i}} \overline{\vec{x}^{(i-1)}}^{\mathrm{T}}\tag{2}$
这是因为

= = \partial J \partial W i p q = \partial x i \partial W i p q \partial J \partial x i \sum j \partial x i j \partial W i p q \partial J \partial x i j x i - 1 q ¯ ¯ ¯ ¯ ¯ ¯ \partial J \partial x i p

$\begin{align*} &\dfrac{\partial J}{\partial W^{i}_{pq}} = \dfrac{{\partial \vec{x}^{i}}}{\partial W^{i}_{pq}}\dfrac{\partial J}{\partial \vec{x}^{i}} \\ =& \sum_j \dfrac{{\partial x_{j}^{i}}}{\partial W^{i}_{pq}}\dfrac{\partial J}{\partial x_{j}^{i}}\\ =& \overline{x_q^{i-1}} \dfrac{\partial J}{\partial x_{p}^{i}} \end{align*}$
所以关键是求解

∂J∂xi $\frac{\partial J}{\partial \vec{x}^{i}}$ . 由链式法则（注意这里是使用的标量函数对矩阵或向量求到的链式法则，求导顺序不可交换），有

\partial J \partial x i = \partial x n \partial x i = = = = \partial x n \partial x i \partial J \partial x n \partial x n - 1 \partial x i \partial x n \partial x n - 1 \partial x n - 2 \partial x i \partial x n - 1 \partial x n - 2 \partial x n \partial x n - 1 \dots \partial x i + 1 \partial x i \partial x i + 2 \partial x i + 1 \dots \partial x n \partial x n - 1 (3) (4)

$\begin{align*} \dfrac{\partial J}{\partial \vec{x}^{i}} = &\dfrac{\partial \vec{x}^n}{\partial \vec{x}^{i}} \dfrac{\partial J}{\partial \vec{x}^{n}}\tag{3}\\ \dfrac{\partial \vec{x}^n}{\partial \vec{x}^{i}} = & \dfrac{\partial \vec{x}^{n-1}}{\partial \vec{x}^{i}} \dfrac{\partial \vec{x}^n}{\partial \vec{x}^{n-1}}\nonumber\\ =& \dfrac{\partial \vec{x}^{n-2}}{\partial \vec{x}^{i}} \dfrac{\partial \vec{x}^{n-1}}{\partial \vec{x}^{n-2}} \dfrac{\partial \vec{x}^n}{\partial \vec{x}^{n-1}}\nonumber\\ =& \ \cdots\nonumber\\ =&\dfrac{\partial \vec{x}^{i+1}}{\partial\vec{x}^{i}} \dfrac{\partial \vec{x}^{i+2}}{\partial\vec{x}^{i+1}} \dotsm \dfrac{\partial \vec{x}^{n}}{\partial\vec{x}^{n-1}}\tag{4} \end{align*}$

所以，由公式 (1), (3) 和 (4) 得

\partial J \partial b i = \partial J \partial x i = \partial x i + 1 \partial x i \partial x i + 2 \partial x i + 1 \dots \partial x n \partial x n - 1 \cdot \partial J \partial x n (5)

$\dfrac{\partial J}{\partial \vec{b}^{i}} = \dfrac{\partial J}{\partial \vec{x}^{i}}= \dfrac{\partial \vec{x}^{i+1}}{\partial\vec{x}^{i}} \dfrac{\partial \vec{x}^{i+2}}{\partial\vec{x}^{i+1}} \dotsm \dfrac{\partial \vec{x}^{n}}{\partial\vec{x}^{n-1}} \cdot \dfrac{\partial J}{\partial \vec{x}^{n}} \tag{5}$
由公式 (2)–(4) 得

\partial J \partial W i = \partial x i + 1 \partial x i \partial x i + 2 \partial x i + 1 \dots \partial x n \partial x n - 1                            A i \cdot \partial J \partial x n      δ n \cdot x (i - 1) ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ T (6)

$\dfrac{\partial J}{\partial \vec{W}^{i}} = \underbrace{ \dfrac{\partial \vec{x}^{i+1}}{\partial\vec{x}^{i}} \dfrac{\partial \vec{x}^{i+2}}{\partial\vec{x}^{i+1}} \dotsm \dfrac{\partial \vec{x}^{n}}{\partial\vec{x}^{n-1}}}_{\vec{A}^{i}} \cdot \underbrace{\dfrac{\partial J}{\partial \vec{x}^{n}}}_{\vec{\delta^{n}}} \cdot \overline{\vec{x}^{(i-1)}}^{\mathrm{T}}\tag{6}$
其中

\partial x j + 1 \partial x j = diag (f ˙ j (x j)) W (j + 1) T

$\frac{\partial \vec{x}^{j+1}}{\partial \vec{x}^{j}} = \operatorname{diag}(\dot f^{j}(\vec{x}^{j}))\vec{W}^{(j+1)\mathrm{T}}$
公式 (6) 中

δn $\vec{\delta^{n}}$ 的计算是容易的，因为

xn $\vec{x}^n$ 靠近网络的输出端，一般而言

J $J$ 是

xn $\vec{x}^n$ 的一个在形式上比较简单的函数。对给定的损失函数，我们可以直接写出其表达式。
公式 (6) 中

Ai $\vec{A}^{i}$ 是一系列的Jaccobian矩阵的乘积。结合图1，我们可以从网络的输出端到输入端的方向依次计算这些Jaccobian矩阵，并累乘之得到

Aj,j=n−1,n−2,…,1 $\vec{A}^{j}, j=n-1, n-2,\dots, 1$ . 但是这样做的计算量太大，因为它涉及一列的矩阵与矩阵的乘积，我们不会显示的计算矩阵

Ai $\vec{A}^i$ , 而是依次计算

δj,j=n−1,n−2,…,1 $\vec{\delta}^{j}, j =n-1, n-2,\dots,1$

δ j = \partial x j + 1 \partial x j δ j + 1 = diag (f ˙ j (x j)) W (j + 1) T δ j + 1

$\vec{\delta}^{j} = \dfrac{\partial \vec{x}^{j+1}}{\partial\vec{x}^{j}}\vec{\delta}^{j+1} = \operatorname{diag}(\dot f^{j}(\vec{x}^{j}))\vec{W}^{(j+1)\mathrm{T}} \vec{\delta}^{j+1}$
最后得到

\partial J \partial W i = \partial J \partial b i = δ i x (i - 1) ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ T δ i

$\begin{align*} \frac{\partial J}{\partial \vec{W}^{i}} = &\vec{\delta}^{i} \overline{\vec{x}^{(i-1)}}^{\mathrm{T}}\\ \frac{\partial J}{\partial \vec{b}^{i}} = & \vec{\delta}^{i} \end{align*}$
另一点值得注意是，通常我们不会每观察到一个实例就更新权值，而是对每

m>1 $m>1$ 个实例计算一次梯度，更新一次权值。例如，我们从训练集中每抽取

m $m$ 个样本

{1x,2x,…,mx} $\{\leftsuperscript{1}{\vec{x}}, \leftsuperscript{2}{\vec{x}},\dots,\leftsuperscript{m}{\vec{x}}\}$ 更新一次参数。对这

m $m$ 个样本，损失函数为

L=1m∑mi=1J(ix) $L=\frac{1}{m} \sum_{i=1}^m J(\leftsuperscript{i}{\vec{x}})$ . 于是

\partial L \partial b i = \partial L \partial W i = 1 m \sum j = 1 m A i \partial J ( j x ) \partial x n 1 m \sum j = 1 m A i \partial J ( j x ) \partial x n \cdot j x (i - 1) ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ T (7) (8)

$\begin{align*} \dfrac{\partial L}{\partial \vec{b}^{i}} = &\frac{1}{m} \sum_{j=1}^{m} \vec{A}^i \frac{\partial J(\leftsuperscript{j}{\vec{x}})}{\partial \vec{x}^{n}}\tag{7}\\ \dfrac{\partial L}{\partial \vec{W}^{i}} = & \frac{1}{m} \sum_{j=1}^{m} \vec{A}^{i} \frac{\partial J(\leftsuperscript{j}{\vec{x}})}{\partial \vec{x}^{n}} \cdot \overline{ \leftsuperscript{j}{\vec{x}}^{(i-1)} }^{\mathrm{T}}\tag{8} \end{align*}$
在实践中，我们一般都是按照 (7) 和 (8) 上面两式求参数的梯度，进而更新网络的权值。注意矩阵按不同的顺序求值，时间复杂度是不同的，千万不要显示的计算

Ai $\vec{A}^i$ .
如果定义

X i = Δ i = (1 x i, 2 x i, \dots, m x i) (1 δ i, 2 δ i, \dots, m δ i)

$\begin{align*} \vec{X}^{i} = & (\leftsuperscript{1}{\vec{x}}^{i}, \leftsuperscript{2}{\vec{x}}^{i}, \dots, \leftsuperscript{m}{\vec{x}}^{i})\\ \vec{\Delta}^{i} = & (\leftsuperscript{1}{\vec{\delta}}^{i}, \leftsuperscript{2}{\vec{\delta}}^{i}, \dots, \leftsuperscript{m}{\vec{\delta}}^{i}) \end{align*}$
那么

\partial J \partial W i = \partial J \partial b i = Δ i X (i - 1) T Δ i

$\begin{align*} \frac{\partial J}{\partial \vec{W}^{i}} = &\vec{\Delta}^{i}\vec{X}^{(i-1)\mathrm{T}}\\ \frac{\partial J}{\partial \vec{b}^{i}} = & \vec{\Delta}^{i} \end{align*}$

非标准前馈神经网络

权值共享情况

下面我们考虑有权值共享的情况。我们可以证明，当有权值共享的时候，网络可以如同没有权值共享一样地更新。如图 2 所示，不失一般性，不妨假设除了图 2 所示的 $\vec{z}$ 层和 $\vec{y}$ 层共享权值矩阵 $\vec{W}$ 之外，没有其他权值共享；设所有的激活函数都是 $f$ .
$图二$

= = = = = = = = = \partial J \partial W p q = \partial z \partial W p q \cdot \partial J \partial z \sum i \partial z i \partial W p q \cdot \partial J \partial z i \sum i \partial ( W i h ¯ ¯ ¯ + b i ) \partial W p q \cdot \partial J \partial z i \sum i \partial W i h ¯ ¯ ¯ \partial W p q \cdot \partial J \partial z i \sum i (\partial W i \partial W p q \cdot \partial W i h ¯ ¯ ¯ \partial W i + \partial h ¯ ¯ ¯ \partial W p q \cdot \partial W i h ¯ ¯ ¯ \partial h ¯ ¯ ¯) \cdot \partial J \partial z i h q ¯ ¯ ¯ ¯ \partial J \partial z p + \partial h ¯ ¯ ¯ \partial W p q \sum i W T i \partial J \partial z i h q ¯ ¯ ¯ ¯ \partial J \partial z p + \partial h ¯ ¯ ¯ \partial W p q W T \partial J \partial z h q ¯ ¯ ¯ ¯ \partial J \partial z p + \partial y \partial W p q \partial h \partial y \partial h ¯ ¯ ¯ \partial h \partial z \partial h ¯ ¯ ¯ \partial J \partial z h q ¯ ¯ ¯ ¯ \partial J \partial z p + \partial y \partial W p q \partial J \partial y h q ¯ ¯ ¯ ¯ \partial J \partial z p + x q ¯ ¯ ¯ ¯ \partial J \partial y p

$\begin{align*} &\dfrac{\partial J}{\partial W_{pq}} = \dfrac{\partial \vec{z}}{\partial W_{pq}} \cdot \dfrac{\partial J}{\partial \vec{z}}\\ =&\sum_i \dfrac{\partial z_i}{\partial W_{pq}} \cdot \dfrac{\partial J}{\partial z_i}\\ =&\sum_i \dfrac{\partial (\vec{W}_i \overline{\vec{h}} +b_i)}{\partial W_{pq}} \cdot \dfrac{\partial J}{\partial z_i}\\ =& \sum_i \dfrac{\partial \vec{W}_i \overline{\vec{h}}}{\partial W_{pq}} \cdot \dfrac{\partial J}{\partial z_i}\\ =& \sum_i \Big(\dfrac{\partial \vec{W}_i }{\partial W_{pq}} \cdot\dfrac{\partial \vec{W}_i \overline{\vec{h}}}{\partial \vec{W}_i} + \dfrac{\partial \overline{\vec{h}} }{\partial W_{pq}} \cdot\dfrac{\partial \vec{W}_i \overline{\vec{h}}}{\partial \overline{\vec{h}}}\Big)\cdot \dfrac{\partial J}{\partial z_i}\\ =& \overline{h_q}\dfrac{\partial J}{\partial z_p} + \dfrac{\partial \overline{\vec{h}}}{\partial W_{pq}} \sum_i \vec{W}_i^{\mathrm{T}} \dfrac{\partial J}{\partial z_i}\\ =& \overline{h_q}\dfrac{\partial J}{\partial z_p} + \dfrac{\partial \overline{\vec{h}}}{\partial W_{pq}} \vec{W}^{\mathrm{T}} \dfrac{\partial J}{\partial \vec{z}}\\ =& \overline{h_q}\dfrac{\partial J}{\partial z_p} + \dfrac{\partial \vec{y}} {\partial W_{pq}} \dfrac{\partial\vec{h}}{\partial \vec{y}} \dfrac{\partial \overline{\vec{h}}}{\partial\vec{h}} \dfrac{\partial \vec{z}}{\partial \overline{\vec{h}}} \dfrac{\partial J}{\partial \vec{z}}\\ %=& h_q\dfrac{\partial J}{\partial z_p} + \dfrac{\partial\vec{h}}{{\partial W_{pq}}} \dfrac{\partial J}{\partial \vec{h}}\\ %=& h_q\dfrac{\partial J}{\partial z_p} + \dfrac{\partial \vec{y}} {\partial W_{pq}}\dfrac{\partial\vec{h}}{\partial \vec{y}} \dfrac{\partial J}{\partial \vec{h}}\\ =& \overline{h_q}\dfrac{\partial J}{\partial z_p} + \dfrac{\partial \vec{y}} {\partial W_{pq}} \dfrac{\partial J}{\partial \vec{y}}\\ =&\overline{h_q}\dfrac{\partial J}{\partial z_p} + \overline{x_q} \dfrac{\partial J}{\partial y_p} \end{align*}$
所以

\partial J \partial W = \partial J \partial z h ¯ ¯ ¯ T + \partial J \partial y x ¯ ¯ ¯ T

$\dfrac{\partial J}{\partial \vec{W}} = \dfrac{\partial J}{\partial \vec{z}} \overline{\vec{h}}^{\mathrm{T}} + \dfrac{\partial J}{\partial \vec{y}} \overline{\vec{x}}^{\mathrm{T}}$
同理，如果偏置共享的话，对偏置的导数也有类似的性质。
因为

∂J∂W $\frac{\partial J}{\partial \vec{W}}$ 可以写为没有权值共享时，损失函数关于对应位置的权值矩阵的导数之和，所以对该网络更新权值，可以如同没有权值共享一样地更新。

图结构的前馈神经网络

未完待续……

elie_001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
反向传播算法

反向传播算法约定首先我们对数学符号做一些约定。粗体的小写字母表示列向量，如x,xi,δ\renewcommand{\vec}[1]{\boldsymbol{#1}} \vec{x}, \vec{x}^i, \vec{\delta}等；粗体的大写字母表示矩阵，如A,W,Δ\vec{A},\vec{W}, \vec{\Delta}等；常规字体表示标量或函数，如α,i,xjp,f\alpha, i
复制链接

扫一扫