《机器学习》学习笔记4.9：反向传播(BP算法)详解

最新推荐文章于 2024-09-25 19:52:15 发布

Mengo_x

最新推荐文章于 2024-09-25 19:52:15 发布

阅读量459

点赞数 1

分类专栏：机器学习 Python与AI 文章标签：算法神经网络深度学习机器学习

本文链接：https://blog.csdn.net/qq_44577070/article/details/120585942

版权

Python与AI 同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

机器学习

16 篇文章 5 订阅

订阅专栏

参考了台湾大学李宏毅老师2021版《机器学习》课程

此处符号表示与吴恩达的略有不同。

单个训练集的代价函数用 $C(\theta)$ 表示，所有训练集代价函数之和用 $L(\theta)$ 表示，

神经网络中的参数 $\theta$ 包括权重 $w$ 和偏置 $b$ ，

$g (x)$ 和 $\sigma(x)$ 都是指某种激活函数。

终于理清反向传播算法（Backpropagation Algorithm，BP算法）的过程了。

1 梯度下降

在用梯度下降算法时，网络参数 $\theta = \{w_1,w_2,...,b_1,b_2\}$ ，我们要做的是选定一个初始参数 $\theta^0$ ，计算它对代价函数的梯度 $\nabla L(\theta^0)$ ，然后通过梯度下降更新为 $\theta^1 = \theta^0-\alpha \nabla J(\theta^0)$ ，反复这个过程直到收敛。

其中 ${{\nabla L(\theta)}}=\begin{bmatrix} \frac{\partial }{\partial {w_1}}L\left( \theta \right) \\\frac{\partial }{\partial {w_2}}L\left( \theta \right)\\ ...\\ \frac{\partial }{\partial {b_1}}L\left( \theta \right)\\ \frac{\partial }{\partial {b_2}}L\left( \theta \right) \end{bmatrix}$

在神经网络中参数可能有上百万个， ${{\nabla L(\theta)}}$ 为上百万维向量，反向传播算法就是用于高效地计算这个向量，然后再用梯度下降求代价函数最小值。

2 反向传播

设神经网络(NN)某一组输出值与标签之间的代价为 $C^n$ ，则将所有训练集的代价加起来即为 $L(\theta)$ ，这里以对权重 $w$ 求偏导为例得到右边的式子。
在这里插入图片描述
接下来只对一组训练数据进行计算 $\frac{\partial C}{\partial {w}}$ （最后将所有的训练集加起来即可）。

假设神经网络只有两个输入 $x_1,x_2$ ，那么加权和为 $z=x_1w_1+x_2w_2+b$ 。通过链式法则可知：

$\frac{\partial C}{\partial {w}}=\frac{\partial z}{\partial {w}}\frac{\partial C}{\partial {z}}$

这里 $\frac{\partial z}{\partial {w}}$ 将使用顺推法(forward pass) ， $\frac{\partial C}{\partial {z}}$ 将使用逆推法(backward pass) 。
在这里插入图片描述

2.1 顺推法

由上可得： $\frac{\partial z}{\partial {w_1}}=x_1$ ， $\frac{\partial z}{\partial {w_2}}=x_2$

即对于在这之后的层上 $\frac{\partial z}{\partial {w}}$ 都为前一层的输出值。

只要把输入丢入神经网络，计算每个神经元的输出，即可得到每个 $\frac{\partial z}{\partial {w}}$ 值。这个步骤即为顺推法 。
在这里插入图片描述

2.2 顺推法求 $\frac{\partial C}{\partial {z}}$

如果继续使用顺推法，将网络向后拓展，第一层的输出值为 $a = g (z)$ ，由链式法则可得：

$\frac{\partial C}{\partial {z}}=\frac{\partial a}{\partial {z}}\frac{\partial C}{\partial {a}}$

易算出 $\frac{\partial a}{\partial {z}}=g'(z)$ ，主要问题在于计算 $\frac{\partial C}{\partial {a}}$ 。
在这里插入图片描述
由网络图可知， $a$ 会通过 $z^{'}, z^{''}$ 影响 $C$ 。由链式法则可得：

$\frac{\partial C}{\partial {a}}=\frac{\partial z'}{\partial {a}}\frac{\partial C}{\partial {z'}}+\frac{\partial z''}{\partial {a}}\frac{\partial C}{\partial {z''}}$

此网络中只有两项，如果有更多项则都需根据链式法则加起来。

易算出 $\frac{\partial z'}{\partial {a}}=w_3$ ， $\frac{\partial z''}{\partial {a}}=w_4$ ，此时有：

$\frac{\partial C}{\partial {z}}=\frac{\partial a}{\partial {z}}\frac{\partial C}{\partial {a}}=g'(z)[w_3\frac{\partial C}{\partial {z'}}+w_4\frac{\partial C}{\partial {z''}}]$

问题在于如何算 $\frac{\partial C}{\partial {z'}},\frac{\partial C}{\partial {z''}}$ 。可从两种情况考虑：

1、已经到了输出层可直接由链式法则算出。
在这里插入图片描述
2、还没到输出层，继续套娃计算直到到输出层。

但是这样计算过于复杂，所以需要使用逆推法。

2.3 逆推法

在顺推法求 $\frac{\partial C}{\partial {z}}$ 中我们得到了这个式子：

$\frac{\partial C}{\partial {z}}=\frac{\partial a}{\partial {z}}\frac{\partial C}{\partial {a}}=g'(z)[w_3\frac{\partial C}{\partial {z'}}+w_4\frac{\partial C}{\partial {z''}}]$

将相应的计算图画出来，其实就是顺推倒过来。这里的 $g^{'} (z)$ 已经通过正推得到，是一个常数。
在这里插入图片描述
由此可知，我们可以通过下一层的 $\frac{\partial C}{\partial {z^{(L)}}}$ 来推上一层的 $\frac{\partial C}{\partial {z^{(L-1)}}}$ ，只需要知道权值 $w$ 和已计算出 $g^{'} (z)$ 。