反向传播算法 — Backpropagation

最新推荐文章于 2023-03-15 09:58:40 发布

_rho

最新推荐文章于 2023-03-15 09:58:40 发布

阅读量506

点赞数

分类专栏：机器学习文章标签：神经网络反向传播算法

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

首先，我们以一个双层神经网络为例展示神经网络关于数据标签的计算过程（即前向传播）。
这里写图片描述

其中， $W^l$ 和 $b^l$ 分别表示第 $l$ 层神经元的权重参数和偏置项， $s^l = {W^l}^Ta^{l-1} + b^l$ 。 $g^l$ 表示第 $l$ 层神经元的激活函数，不同层可以选取不同的函数作为激活函数。 $a^l$ 表示第 $l$ 层神经元的输出。本例最终的输出 $a^2$ 即是该神经网络针对数据集 $X$ 计算得到的预测值 $\hat y$ 。

我们可以构建出本神经网络的成本函数 $J(\hat y)$ 。一个常见的方式是采用最小二乘法，使得残差最小化：
$J(\hat y) = \frac {1}{m} \sum\limits_{i=1}^{m}(y_i - \hat y_i)^2 = \frac {1}{m} (Y - \hat Y)^T(Y - \hat Y)$

我们以上图为例，将每层神经元的计算过程以数学公式表示：
$\begin{cases} s^1 = W^1a^0 + b^1 \\ a^1 = g^1(s^1) \end{cases} \\ \begin{cases} s^2 = W^2a^1 + b^2 \\ a^2 = g^2(s^2) \end{cases}$

然后，我们来扩展成本函数 $J(\hat y)$ ：
$\begin{aligned} & J(\hat y) = J(a^2) = J[g^2(s^2)] = J[g^2(W^2a^1 + b^2)] = J\{g^2[W^2g^1(W^1a^0 +b^1) + b^2]\} \\ & = J\{g^2[W^2g^1(W^1X +b^1) + b^2]\} \end{aligned}$

为易于观察，对于不同函数 $J, g^2, g^1$ ，上式采用了不同的括号。上式即嵌套的函数： $J(\hat y) = J(g^2(g^1(X)))$ 。因此，使得成本函数 $J(\hat y)$ 最小化，我们可以使用梯度下降法得到此例中的自变量 $W^1, W^2, b^1$ 和 $b^2$ ：
$\begin{cases} W^2 = W^2 -\alpha \bigtriangledown J(W^2) \\ b^2 = b^2 -\alpha \bigtriangledown J(b^2) \end{cases} \\ \begin{cases} W^1 = W^1 -\alpha \bigtriangledown J(W^1) \\ b^1 = b^1 -\alpha \bigtriangledown J(b^1) \end{cases}$

通用的更新公式为：
$W^l = W^l -\alpha \bigtriangledown J(W^l) \\ b^l = b^l -\alpha \bigtriangledown J(b^l)$

上式便是神经网络的反向传播算法，即其学习策略。下面我将继续以文章开始处的例子详细解释反向传播算法。
这里写图片描述

其中， $dW^l$ 和 $db^l$ 分别表示成本函数 $J$ 对于 $W^l$ 和 $b^l$ 的偏导数， $ds^1$ 亦是如此。我们可以先计算一下 $W^2$ 和 $b^2$ 的更新公式（因为它们离成本函数最近，偏导的计算量最小）：
$\begin{cases} W^2 = W^2 -\alpha \bigtriangledown J(W^2) \\ b^2 = b^2 -\alpha \bigtriangledown J(b^2) \end{cases}$

其中， $\bigtriangledown J(W^2) = \frac {\partial J}{\partial W^2} = dW^2$ ， $\bigtriangledown J(b^2) = \frac {\partial J}{\partial b^2} = db^2$ 。
$da^2 = \begin{bmatrix} da^2_1 \\ da^2_2 \\ \vdots \\ da^2_{l_2} \end{bmatrix} = \begin{bmatrix} \frac {\partial J}{\partial a^2_1} \\ \frac {\partial J}{\partial a^2_2} \\ \vdots \\ \frac {\partial J}{\partial a^2_{l_2}} \end{bmatrix} = \begin{bmatrix} - \frac {2}{m}(y_{1i} - a^2_{1i}) \\ - \frac {2}{m}(y_{2i} - a^2_{2i}) \\ \vdots \\ - \frac {2}{m}(y_{{l_2}i} - a^2_{{l_2}i}) \end{bmatrix}$

其中， $l_2$ 表示神经网络第2层的神经元数目， $\frac {1}{m} \sum\limits_{i=1}^{m}(y_i - \hat y_i)^2$ 。
$ds^2 = \begin{bmatrix} ds^2_1 \\ ds^2_2 \\ \vdots \\ ds^2_{l_2} \end{bmatrix} = \begin{bmatrix} da^2_1g^{2\prime}(s^2_1) \\ da^2_2g^{2\prime}(s^2_2) \\ \vdots \\ da^2_{l_2}g^{2\prime}(s^2_{l_2}) \end{bmatrix} = \begin{bmatrix} g^{2\prime}(s^2_1) & 0 & \dots & 0 \\ 0 & g^{2\prime}(s^2_2) & \dots & 0 \\ \vdots \\ 0 & 0 &\dots & g^{2\prime}(s^2_{l_2}) \end{bmatrix} \begin{bmatrix} da^2_1 \\ da^2_2 \\ \vdots \\ da^2_{l_2} \end{bmatrix} = \begin{bmatrix} g^{2\prime}(s^2_1) & 0 & \dots & 0 \\ 0 & g^{2\prime}(s^2_2) & \dots & 0 \\ \vdots \\ 0 & 0 &\dots & g^{2\prime}(s^2_{l_2}) \end{bmatrix} da^2$

然后，求 $dW^2$ 和 $db^2$ ：
$dW^2 = \begin{bmatrix} dw^2_{11} & dw^2_{12} & \dots & dw^2_{1l_1} \\ dw^2_{21} & dw^2_{22} & \dots & dw^2_{2l_1} \\ \vdots \\ dw^2_{l_21} & dw^2_{l_22} & \dots & dw^2_{l_2l_1} \end{bmatrix} = \begin{bmatrix} ds^2_1a^1_1 & ds^2_1a^1_2 & \dots & ds^2_1a^1_{l_1} \\ ds^2_2a^1_1 & ds^2_2a^1_2 & \dots & ds^2_2a^1_{l_1} \\ \vdots \\ ds^2_{l_2}a^1_1 & ds^2_{l_2}a^1_2 & \dots & ds^2_{l_2}a^1_{l_1} \\ \end{bmatrix} = \begin{bmatrix} ds^2_1 \\ ds^2_2 \\ \vdots \\ ds^2_{l_2} \end{bmatrix} \begin{bmatrix} a^1_1 & a^1_2 & \dots & a^1_{l_1} \end{bmatrix} = ds^2{a^1}^T$

$db^2 = \begin{bmatrix} db^2_1 \\ db^2_2 \\ \vdots \\ db^2_{l_2} \end{bmatrix} = \begin{bmatrix} ds^2_1 \\ ds^2_2 \\ \vdots \\ ds^2_{l_2} \end{bmatrix} = ds^2$

对于 $W^1$ 和 $b^1$ 的更新公式：
$\begin{cases} W^1 = W^1 -\alpha \bigtriangledown J(W^1) \\ b^1 = b^1 -\alpha \bigtriangledown J(b^1) \end{cases}$

其中， $\bigtriangledown J(W^1) = ds^1 {a^0}^T$ ， $\bigtriangledown J(b^1) = ds^1$ （推导过程同上）。其中：
$ds^1 = \begin{bmatrix} g^{1\prime}(s^1_1) & 0 & \dots & 0 \\ 0 & g^{1\prime}(s^1_2) & \dots & 0 \\ \vdots \\ 0 & 0 &\dots & g^{1\prime}(s^1_{l_1}) \end{bmatrix} da^1$

$da^1 = \begin{bmatrix} da^1_1 \\ da^1_2 \\ \vdots \\ da^1_{l_1} \end{bmatrix} = \begin{bmatrix} {ds^2}^T \begin{bmatrix} w^2_{11} & w^2_{21} & \dots & w^2_{l_21}\end{bmatrix}^T \\ {ds^2}^T \begin{bmatrix} w^2_{12} & w^2_{22} & \dots & w^2_{l_22}\end{bmatrix}^T \\ \vdots \\ {ds^2}^T \begin{bmatrix} w^2_{1l_1} & w^2_{2l_1} & \dots & w^2_{l_2l_1}\end{bmatrix}^T \end{bmatrix} = {W^2}^Tds^2$

因此，根据链式规则可得更为通用的公式：
$ds^l = g^{l\prime}(s^l){W^{l+1}}^Tds^{l+1} \\ ds^{last} = g^{last\prime}(s^{last}) \frac {\partial J}{\partial a^{last}}$

最后，我将本例的前向传播和反向传播的图示结合起来，并给出完整的反向传播更新公式。
这里写图片描述

$\begin{aligned} & \begin{cases} W^l = W^l -\alpha \bigtriangledown J(W^l) = W^l - \alpha ds^l {a^{l-1}}^T\\ b^l = b^l -\alpha \bigtriangledown J(b^l) = b^l - \alpha ds^l \end{cases} \\ & \begin{cases} ds^l = g^{l\prime}(s^l){W^{l+1}}^Tds^{l+1} \\ ds^{last} = g^{last\prime}(s^{last}) \frac {\partial J}{\partial a^{last}} \end{cases} \end{aligned}$