李宏毅深度学习笔记（二）——后向传播（Backpropagation）

最新推荐文章于 2024-04-25 13:41:33 发布

好想学会深度学习啊

最新推荐文章于 2024-04-25 13:41:33 发布

阅读量524

点赞数

文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/qq_51026159/article/details/119061359

版权

本文详细介绍了反向传播（Backpropagation）算法在神经网络中的作用，它用于有效地计算梯度下降中的参数梯度。通过实例解释了损失函数、链式法则以及sigmoid函数在计算过程中的应用，展示了从输出层到输入层的梯度计算递推式。最终，文章阐述了整个前向传播和反向传播的运算流程，帮助读者理解神经网络学习的核心步骤。

摘要由CSDN通过智能技术生成

Backpropagation解决的是在神经网络中如何有效率的进行Gradient Descent算法的问题。更具体地说，假设将Loss Function记为 $\L(\theta)$ ，其中 $\theta$ 为一个向量，表示所有的参数，那么 $L(\theta)$ 的梯度表示为

$\nabla L(\theta)=\begin{bmatrix} \frac{\partial L(\theta)}{\partial w_{1}}\\ \frac{\partial L(\theta)}{\partial w_{2}}\\ ...\\ \frac{\partial L(\theta)}{\partial b_{1}}\\ \frac{\partial L(\theta)}{\partial b_{2}}\\ ...\\ \end{bmatrix}$

Backpropagation就是快速计算 $\nabla L$ 的一种方法。

定义函数 $C^{n}(\theta)$ 为第n个预测值与真实值之间的距离函数，则Loss Function可以表示为

$L(\theta)=\sum_{n=1}^{N}C^{n}(\theta)$

将 $\theta$ 中的某一个参数记为w， $C^{n}$ 简记为C，下面开始展示 $\frac{\partial C}{\partial w}$ 的计算过程。

如图所示是一个神经元，输入为 $x_{1}$ 和 $x_{2}$ ，令sigmoid函数的输入 $z=w_{1}x_{1}+w_{2}x_{2}+b$ ，则根据链式法则， $\frac{\partial C}{\partial w}=\frac{\partial C}{\partial z}\frac{\partial z}{\partial w}$ .

其中 $\frac{\partial z}{\partial w}$ 是容易得到的。若 $w=w_{1}$ ，则 $\frac{\partial z}{\partial w}=x_{1}$ ；若 $w=w_{2}$ ，则 $\frac{\partial z}{\partial w}=x_{2}$ ；否则 $\frac{\partial z}{\partial w}=0$ 。但是，计算 $\frac{\partial C}{\partial z}$ 需要考虑后面的运算对C带来的影响。

进一步地，令 $a=\sigma(z)$ ，我们可以得到 $\frac{\partial C}{\partial z}=\frac{\partial C}{\partial a}\frac{\partial a}{\partial z}$ 。同样的， $\frac{\partial a}{\partial z}$ 可以由sigmoid函数求导得到，计算 $\frac{\partial C}{\partial a}$ 需要考虑后面的运算对C带来的影响。

于是我们考虑下一层神经元。假设这个神经元只与下一层的两个神经元的连接。在下一层中，经过同样的运算可以得到 ${z}'$ 和 ${z}''$ 。于是 $\frac{\partial C}{\partial a}=\frac{\partial C}{\partial {z}'}\frac{\partial {z}'}{\partial a}+\frac{\partial C}{\partial {z}''}\frac{\partial {z}''}{\partial a}$ 。

观察这个式子，从图中易得 $\frac{\partial {z}'}{\partial a}=w_{3}$ ， $\frac{\partial {z}''}{\partial a}=w_{4}$ ，而 $\frac{\partial C}{\partial {z}'}$ 和 $\frac{\partial C}{\partial {z}''}$ 的求法与 $\frac{\partial C}{\partial z}$ 没有任何区别。于是我们考虑：能不能用递推的方法求出所有的 $\frac{\partial C}{\partial z}$ 呢？

答案是肯定的。通过以上的推导可以得到递推式

$\frac{\partial C}{\partial z}={\sigma}'(z)[w_{3}\frac{\partial C}{\partial {z}'}+w_{4}\frac{\partial C}{\partial {z}''}]$

如果这层神经元不是最后一层，即不是output layer，则用递推式计算；如果是output layer，假设输出分别为 $y_{1}$ 和 $y_{2}$ ，则 $\frac{\partial C}{\partial {z}'}=\frac{\partial C}{\partial y_{1}}\frac{\partial y_{1}}{\partial {z}'}=\frac{\partial C}{\partial y_{1}}{\sigma}'({z}')$ ， $\frac{\partial C}{\partial {z}''}=\frac{\partial C}{\partial y_{2}}\frac{\partial y_{2}}{\partial {z}''}=\frac{\partial C}{\partial y_{2}}{\sigma}'({z}'')$ 。