3.10 直观理解反向传播-深度学习-Stanford吴恩达教授

最新推荐文章于 2021-07-27 13:20:39 发布

Zhao-Jichao

最新推荐文章于 2021-07-27 13:20:39 发布

阅读量5.9k

点赞数 14

分类专栏：深度学习DL 文章标签：深度学习机器学习神经网络算法

本文链接：https://blog.csdn.net/weixin_36815313/article/details/105341107

版权

深度学习DL 专栏收录该内容

206 篇文章 2836 订阅

订阅专栏

←上一篇	↓↑	下一篇→
3.9 神经网络的梯度下降法	回到目录	3.11 随机初始化

直观理解反向传播 (Backpropagation Intuition (Optional))

这个视频主要是推导反向传播。

下图是逻辑回归的推导：

回想一下逻辑回归的公式(参考公式3.2、公式3.5、公式3.6、公式3.15)

$\left.\begin{matrix} x\\w\\b \end{matrix}\right\}\Rightarrow z=w^T+b\Rightarrow a=\sigma(z)\Rightarrow L(a,y) \tag{3.38}$

所以回想当时我们讨论逻辑回归的时候，我们有这个正向传播步骤，其中我们计算 $z$ ，然后 $a$ ，然后损失函数 $L$ 。

$\underbrace{\left.\begin{matrix} x\\w\\b \end{matrix}\right\}}_{dw=dz\cdot x,db=dz} \Leftarrow \underbrace{z=w^T+b}_{dz=da\cdot g^{'}(z),g(z)=\sigma(z),\frac{dL}{dz}=\frac{dL}{da}\cdot \frac{da}{dz},\frac{d}{dz}g(z)=g^{'}(z)} \Leftarrow \underbrace{a=\sigma(z)\Leftarrow L(a,y)}_{da=\frac{d}{da}L(a,y)=(-y\log a-(1-y)\log(1-a))^{'}=-\frac ya+\frac{1-y}{1-a}} \tag{3.39}$

神经网络的计算中，与逻辑回归十分类似，但中间会有多层的计算。下图是一个双层神经网络，有一个输入层，一个隐藏层和一个输出层。

前向传播：

计算 $z^{[1]}，a^{[1]}$ ，再计算 $z^{[2]}，a^{[2]}$ ，最后得到loss function。

反向传播：

向后推算出 $da^{[2]}$ ，然后推算出 $dz^{[2]}$ ，接着推算出 $da^{[1]}$ ，然后推算出 $dz^{[1]}$ 。我们不需要对 $x$ 求导，因为 $x$ 是固定的，我们也不是想优化 $x$ 。向后推算出 $da^{[2]}$ ，然后推算出 $dz^{[2]}$ 的步骤可以合为一步：

$dz^{[2]}=a^{[2]}-y,dW^{[2]}=dz^{[2]}a^{[1]T} \tag{3.40}$

(注意：逻辑回归中；为什么 $a^{[1]T}$ 多了个转置： $d w$ 中的 $W$ (视频里是 $W^{[2]}_i$ )是一个列向量，而 $W^{[2]}$ 是个行向量，故需要加个转置);

$db^{[2]}=dz^{[2]} \tag{3.41}$

$dz^{[1]}=W^{[2]T}dz^{[2]}*g^{[1]'}(z^{[1]}) \tag{3.41}$

注意：这里的矩阵： $W^{[2]}$ 的维度是： $n^{[2]},n^{[1]})$ 。

$z^{[2]}，dz^{[2]}$ 的维度都是： $n^{[2]},1)$ ，如果是二分类，那维度就是 $(1, 1)$ 。

$z^{[1]}，dz^{[1]}$ 的维度都是： $n^{[1]},1)$ 。

证明过程：见公式3.42，其中 $W^{[2]T}dz^{[2]}$ 维度为： $n^{[1]},n^{[2]})、(n^{[2]},1)$ 相乘得到 $n^{[1]},1)$ ，和 $z^{[1]}$ 维度相同，

$g^{[1]'}(z^{[1]})$ 的维度为 $n^{[1]},1)$ ，这就变成了两个都是 $n^{[1]},1)$ 向量逐元素乘积。

实现后向传播有个技巧，就是要保证矩阵的维度相互匹配。最后得到 $dW^{[1]}$ 和 $db^{[1]}$ ,

$dW^{[1]}=dz^{[1]}x^T,db^{[1]}=dz^{[1]} \tag{3.43}$

可以看出 $dW^{[1]}$ 和 $dW^{[2]}$ 非常相似，其中 $x$ 扮演了 $a^{[0]}$ 的角色， $x^T$ 等同于 $a^{[0]T}$ 。

由： $Z^{[1]}=W^{[1]}x+b^{[1]},a^{[1]}=g^{[1]}(Z^{[1]})$ 得到： $Z^{[1]}=W^{[1]}x+b^{[1]},A^{[1]}=g^{[1]}(Z^{[1]})$

$Z^{[1]}=\left[\begin{matrix} \vdots & \vdots & \vdots & \vdots \\ z^{[1](1)} & z^{[1](2)} & \vdots & z^{[1](m)} \\ \vdots & \vdots & \vdots & \vdots \\ \end{matrix}\right]$

注意：大写的 $Z^{[1]}$ 表示 $z^{[1](1)},z^{[1](2)},\cdots,z^{[1](m)}$ 的列向量堆叠成的矩阵，以下类同。

下图写了主要的推导过程：

$dZ^{[2]}=A^{[2]}-Y \tag{3.44}$ $dW^{[2]}=\frac1mdZ^{[2]}A^{[1]T} \tag{3.45}$ $db^{[2]}=\frac1mnp.sum(dZ^{[2]},axis=1,keepdims=True) \tag{3.46}$ $\underbrace{dZ^{[1]}}_{(n^{[1]},m)}=\underbrace{W^{[2]T}dZ^{[2]}}_{(n^{[1]},m)}*\underbrace{g^{[1]'}(Z^{[1]})}_{(n^{[1]},m)} \tag{3.47}$ $dW^{[1]}=\frac1mdZ^{[1]}x^T \tag{3.48}$ $db^{[1]}=\frac1mnp.sum(dZ^{[1]},axis=1,keepdims=True) \tag{3.49}$