4.6 前向和反向传播-深度学习-Stanford吴恩达教授

最新推荐文章于 2022-12-04 18:45:55 发布

Zhao-Jichao

最新推荐文章于 2022-12-04 18:45:55 发布

阅读量4k

点赞数 4

分类专栏：深度学习DL 文章标签：深度学习机器学习 python 神经网络

本文链接：https://blog.csdn.net/weixin_36815313/article/details/105362002

版权

深度学习DL 专栏收录该内容

206 篇文章 2691 订阅

订阅专栏

←上一篇	↓↑	下一篇→
4.5 搭建深层神经网络快	回到目录	4.7 参数 vs. 超参数

前向和反向传播 (Forward and Backward Propagation)

之前我们学习了构成深度神经网络的基本模块，比如每一层都有前向传播步骤以及一个相反的反向传播步骤，这次视频我们讲讲如何实现这些步骤。

先讲前向传播，输入 $a^{[l-1]}$ ，输出是 $a^{[l]}$ ，缓存为 $z^{[l]}$ ；从实现的角度来说我们可以缓存下 $w^{[l]}$ 和 $b^{[l]}$ ，这样更容易在不同的环节中调用函数。

在这里插入图片描述

所以前向传播的步骤可以写成： $z^{[l]}=W^{[l]}\cdot a^{[l-1]} + b^{[l]}\quad a^{[l]}=g^{[l]}(z^{[l]})$

向量化实现过程可以写成： $Z^{[l]}=W^{[l]}\cdot A^{[l-1]} + b^{[l]}\quad A^{[l]}=g^{[l]}(Z^{[l]})$

前向传播需要喂入 $A^{[0]}$ 也就是 $X$ ，来初始化；初始化的是第一层的输入值。 $a^{[0]}$ 对应于一个训练样本的输入特征，而 $A^{[0]}$ 对应于一整 $(m)$ 个训练样本的输入特征，所以这就是这条链的第一个前向函数的输入，重复这个步骤就可以从左到右计算前向传播。

下面讲反向传播的步骤：

输入为 $da^{[l]}$ ，输出为 $da^{[l-1]}$ ， $dw^{[l]}$ , $db^{[l]}$

在这里插入图片描述
所以反向传播的步骤可以写成：

（1） $dz^{[l]}=da^{[l]}\cot g^{[l]^{\prime}}(z^{[l]})$
（2） $dw^{[l]}=dz^{[l]}\cdot a^{[l-1]}$
（3） $db^{[l]}=dz^{[l]}$
（4） $da^{[l-1]}=w^{[l]T}\cdot dz^{[l]}$
（5） $dz^{[l]}=w^{[l+1]T}dz^{[l+1]}\cdot g^{[l]}(z^{[l]})$

式子（5）由式子（4）带入式子（1）得到，前四个式子就可实现反向函数。

向量化实现过程可以写成：

（6） $dZ^{[l]}=dA^{[l]}\cdot g^{[l]^{\prime}}(Z^{[l]})$
（7） $dW^{[l]}=\frac1mdZ^{[l]}\cdot A^{[l-1]T}$
（8） $db^{[l]}=\frac1mnp.sum(dz^{[l]}, axis=1, keepdims=True)$
（9） $dA^{[l-1]}=W^{[l]T}*dZ^{[l]}$

总结一下：

在这里插入图片描述

第一层你可能有一个ReLU激活函数，第二层为另一个ReLU激活函数，第三层可能是sigmoid函数（如果你做二分类的话），输出值为，用来计算损失；这样你就可以向后迭代进行反向传播求导来求 $dw^{[3]} ，db^{[3]} ，dw^{[2]} ，db^{[2]} ，dw^{[1]} ，db^{[1]}$ 。在计算的时候，缓存会把 $z^{[1]}\ z^{[2]}\ z^{[3]}$ 传递过来，然后回传 $da^{[2]}，da^{[1]}$ ，可以用来计算 $da^{[0]}$ ，但我们不会使用它，这里讲述了一个三层网络的前向和反向传播，还有一个细节没讲就是前向递归——用输入数据来初始化，那么反向递归（使用Logistic回归做二分类）——对 $A^{[l]}$ 求导。