台大李宏毅Machine Learning 2017Fall学习笔记 (8)Backpropagation

最新推荐文章于 2024-07-09 20:25:27 发布

Allenlzcoder

最新推荐文章于 2024-07-09 20:25:27 发布

阅读量1.1k

点赞数

分类专栏：台大李宏毅Machine Learning 2017Fall 文章标签：机器学习深度学习 machine-learning deep-learning 李宏毅

本文链接：https://blog.csdn.net/Allenlzcoder/article/details/79013560

版权

台大李宏毅Machine Learning 2017Fall 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

台大李宏毅Machine Learning 2017Fall学习笔记 (8)Backpropagation

当网络结构很复杂时，会有大量的参数。 $\nabla L(\theta)$ 是百万维的向量。如何高效地计算百万维的参数，使用反向传播算法来计算。BP并非是一个和GD不同的训练方法，BP就是GD，只是是一种比较有效率的计算方法。
这里写图片描述
数学知识铺垫：微积分中的链式法则，很简单。

还是以上节中手写数字识别为例。

$x^n$ 是一张输入图片， $y^n$ 是网络的输出 $label$ 向量， $\hat y^n$ 是该图片的真值 $label$ 向量。 $C^n$ 是输出值和真实值的交叉熵损失。定义 $L(\theta)$ 为损失函数。

L (θ) = \sum n = 1 N C n (θ)

$L(\theta)=\sum_{n=1}^NC^n(\theta)$
损失函数对参数的导数为：

\partial L ( θ ) \partial w = \sum n = 1 N \partial C n ( θ ) \partial w

$\frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^N\frac{\partial C^n(\theta)}{\partial w}$
如下图所示：

∂C∂w=∂z∂w∂C∂z $\frac{\partial C}{\partial w}=\frac{\partial z}{\partial w}\frac{\partial C}{\partial z}$ ，

Backpropagation $Backpropagation$ 算法分为两个过程。
这里写图片描述

Forward pass

首先计算前向传播中的 $\frac{\partial z}{\partial w}$ 。以上图为例。

\partial z \partial w 1 = x 1

$\frac{\partial z}{\partial w_1}=x_1$

\partial z \partial w 2 = x 2

$\frac{\partial z}{\partial w_2}=x_2$
显然这一步比较简单，某一参数的微分值就是其对应的输入值。注意要把所有

∂z∂w $\frac{\partial z}{\partial w}$ 的值计算出来。

Backward pass

然后计算反向传播中损失函数对于激活函数输入值的偏微分 $\frac{\partial C}{\partial z}$ 。
如下图中所示： $\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z}\frac{\partial C}{\partial a}$ ， $\frac{\partial a}{\partial z}=\sigma'(z)$ 。
这里写图片描述
利用链式法则计算 $\frac{\partial C}{\partial a}$ .

稍微整理一下，成为下图这样。

下图中很形象地展示了反向传播的概念， $\sigma'(z)$ 类似模拟电路中的放大器。

最后一步是计算 $\frac{\partial C}{\partial z'}$ 和 $\frac{\partial C}{\partial z''}$ 。这分两种情况：1) $z'$ 和 $z''$ 的下一层是输出层；2) $z'$ 和 $z''$ 的下一层不是输出层。
$Case1:$ 输出层
这里写图片描述
$Case2:$ 非输出层
不断地递归计算 $\frac{\partial C}{\partial z}$ ，直至输出层，如下图。

注意：在backward pass过程中也需要对所有的 $z$ ，计算出 $\frac{\partial C}{\partial z}$ .