吴恩达深度学习第一课--第三周神经网络基础作业上正反向传播推导

最新推荐文章于 2022-03-26 20:34:58 发布

zhaohuan_1996

最新推荐文章于 2022-03-26 20:34:58 发布

阅读量294

点赞数 2

分类专栏：深度学习文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/qq_37199669/article/details/104281404

版权

深度学习专栏收录该内容

33 篇文章 2 订阅

订阅专栏

文章目录

正向传播推导
反向传播推导

正向传播推导

第i个样本

我们要搭建的神经网络模型如下图：
在这里插入图片描述

维度

这是一个2层神经网络模型，第0层为输入层，有n_x个特征；第1层为隐藏层，有n_h=4个隐藏单元；第2层为输出层，有n_y=1个输出单元。右上角 $^{[0](i)}$ 符号代表第0层第i个样本。令 $a^{[0](i)}=x^{[0](i)}$ 。 $x^{[0](i)}$ 维度：2x1； $w^{[1](i)}$ 维度=n_h x n_x=4x2； $b^{[1](i)}$ 维度=n_h x 1=4x1； $w^{[2](i)}$ 维度=n_y x n_h=1x4； $b^{[2](i)}$ 维度=n_y x 1=1x1。

求 $z^{[1](i)}、a^{[1](i)}、z^{[2](i)}、a^{[2](i)}$

$w_1^{[1](i)}=\begin{pmatrix} w_{11}^{[1](i)} \\ w_{12}^{[1](i)} \\ \end{pmatrix};w_2^{[1](i)}=\begin{pmatrix} w_{21}^{[1](i)} \\ w_{22}^{[1](i)} \\ \end{pmatrix};w_3^{[1](i)}=\begin{pmatrix} w_{31}^{[1](i)} \\ w_{32}^{[1](i)} \\ \end{pmatrix};w_4^{[1](i)}=\begin{pmatrix} w_{41}^{[1](i)} \\ w_{42}^{[1](i)} \\ \end{pmatrix}$
$w^{[1](i)}=\begin{pmatrix} w_{11}^{[1](i)} & w_{12}^{[1](i)}\\ w_{21}^{[1](i)} & w_{22}^{[1](i)} \\ w_{31}^{[1](i)} & w_{32}^{[1](i)} \\ w_{41}^{[1](i)} & w_{42}^{[1](i)} \\ \end{pmatrix}=\begin{pmatrix} w_1^{[1](i)T}\\ w_2^{[1](i)T}\\ w_3^{[1](i)T }\\w_4^{[1](i)T}\\ \end{pmatrix}$
$z^{[1](i)}=\begin{pmatrix} z_1^{[1](i)}\\ z_2^{[1](i)}\\ z_3^{[1](i)}\\ z_4^{[1](i)}\\ \end{pmatrix}=w^{[1](i)}x^{[0](i)}+b^{[1](i)}$
$a^{[1][i]}=g^{[1]}(z^{[1](i)})=tanh(z^{[1](i)})$
其中， $z^{[1](i)}$ 维度为=4x1， $a^{[1][i]}$ 维度为=4x1。
$z^{[2](i)}=w^{[2](i)}a^{[1](i)}+b^{[2](i)}$
$\hat y =a^{[2][i]}=g^{[2]}(z^{[2](i)})=sigmoid(z^{[2](i)})$
其中， $z^{[2](i)}$ 维度为=1x1， $a^{[2][i]}$ 维度为=1x1。

计算损失

$J=-\frac{1}{m} \sum_{i=0}^m (ylog_{10}a^{[2][i]}+(1-y)log_{10}(1-a^{[2][i]}))$

向量化

维度

令 $A^{[0]}=X^{[0]}$ ；输入 $X^{[0]}$ 维度为n_x x m，其中有n_x个特征，m个样本； $W^{[1]}$ 维度=n_h x n_x=4 x n_x； $b^{[1]}$ 维度=n_h x 1=4x1； $W^{[2]}$ 维度=n_y x n_h=1x4； $b^{[2]}$ 维度=n_y x 1=1x1。

求 $Z^{[1]}、A^{[1]}、Z^{[2]}、A^{[2]}$

$Z^{[1]}=W^{[1]}X^{[0]}+b^{[1]}=W^{[1]}A^{[0]}+b^{[1]}$
$A^{[1]}=g^{[1]}(Z^{[1]})$
其中， $Z^{[1]}$ 的维度为=4xm， $A^{[1]}$ 的维度为4xm。
$Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}$
$A^{[2]}=g^{[2]}(Z^{[2]})$
其中， $Z^{[2]}$ 的维度为=1xm， $A^{[2]}$ 的维度为1xm。

反向传播推导

采用梯度下降法来求，所得公式如下：
在这里插入图片描述

第i个样本

维度

由前向传播得维度， $x^{[0](i)}$ 维度：2x1； $w^{[1](i)}$ 维度=n_h x n_x=4x2； $b^{[1](i)}$ 维度=n_h x 1=4x1； $w^{[2](i)}$ 维度=n_y x n_h=1x4； $b^{[2](i)}$ 维度=n_y x 1=1x1。 $z^{[1](i)}$ 维度为=4x1， $a^{[1][i]}$ 维度为=4x1。 $z^{[2](i)}$ 维度为=1x1， $a^{[2][i]}$ 维度为=1x1。

求 $dz^{[1](i)}$ 、 $dw^{[1](i)}$ 、 $db^{[1](i)}$ 、 $dz^{[2](i)}$ 、 $dw^{[2](i)}$ 、 $db^{[2](i)}$

$dz^{[2](i)}=\frac{\partial L(a^{[2](i)},y)}{\partial a^{[2](i)}}\frac{\partial a^{[2](i)}}{\partial z^{[2](i)}}=a^{[2](i)} - y^{(i)}$
上式推导过程见笔记吴恩达深度学习第一课–第二周神经网络基础作业上正反向传播推导
$dw^{[2](i)}=dz^{[2](i)} \frac{\partial z^{[2](i)}}{\partial w^{[2](i)}} =(a^{[2](i)} - y^{(i)}) a^{[1][i]}$
由 $w^{[2](i)}$ 维度为1x4， $a^{[2](i)} - y^{(i)})$ 维度为1x1， $a^{[1][i]}$ 维度为4x1，所以得：
$w^{[2](i)}=dz^{[2](i)} \frac{\partial z^{[2](i)}}{\partial w^{[2](i)}} =dz^{[2](i)}a^{[1][i]T}= (a^{[2](i)} - y^{(i)})a^{[1][i]T}$
$db^{[2](i)}=dz^{[2](i)}=a^{[2](i)} - y^{(i)}$
$dz^{[1](i)}=\frac{\partial L(a^{[2](i)},y^{(i)})}{\partial a^{[2](i)}} \frac{\partial a^{[2](i)}}{\partial z^{[2](i)}} \frac{\partial z^{[2](i)}}{\partial a^{[1](i)}} \frac{\partial a^{[1](i)}}{\partial z^{[1](i)}}=dz^{[2](i)} w^{[2](i)} *g^{[1]'}(z^{[1](i)})=w^{[2](i)T} dz^{[2](i)} *g^{[1]'}(z^{[1](i)})$
$dw^{[1](i)}=dz^{[1](i)} \frac{\partial z^{[1]}}{\partial w^{[1]}} = dz^{[1](i)} x^{[0][i]T}$
$db^{[1](i)}=dz^{[1](i)}$

向量化

维度

令 $A^{[0]}=X^{[0]}$ ；输入 $X^{[0]}$ 维度为n_x x m，其中有n_x个特征，m个样本； $W^{[1]}$ 维度=n_h x n_x=4 x n_x； $b^{[1]}$ 维度=n_h x 1=4x1； $W^{[2]}$ 维度=n_y x n_h=1x4； $b^{[2]}$ 维度=n_y x 1=1x1。 $Z^{[1]}$ 的维度为=4xm， $A^{[1]}$ 的维度为4xm。 $Z^{[2]}$ 的维度为=1xm， $A^{[2]}$ 的维度为1xm。

求 $dZ^{[1]}$ 、 $dW^{[1]}$ 、 $db^{[1]}$ 、 $dZ^{[2]}$ 、 $dW^{[2]}$ 、 $db^{[2]}$

推导如下：
$dZ^{[2]}=A^{[2]} - Y$
$dW^{[2]}=\frac{1}{m} dZ^{[2]} A^{[1]}$
由于 $Z^{[2]}$ 的维度为=1xm， $A^{[1]}$ 的维度为4xm， $W^{[2]}$ 维度=1x4，所以需要将 $A^{[1]}$ 转置，得到下式：
$dW^{[2]}=\frac{1}{m} dZ^{[2]} A^{[1]T}=\frac{1}{m} (A^{[2]} - Y)A^{[1]T}$

$db^{[2]}=\frac{1}{m}dZ^{[2]}=\frac{1}{m} np.sum(A^{[2]} - Y)$
由于 $A^{[2]} - Y$ 维度为1xm，而 $db^{[2]}$ 维度为1x1，所以对 $A^{[2]} - Y$ 求和。
$dZ^{[1]}=dZ^{[2]}W^{[2]}* g^{[1]'}(Z^{[1]})$
由于 $W^{[2]}$ 维度=1x4， $Z^{[2]}$ 的维度为=1xm， $dZ^{[1]}$ 的维度为4xm，所以需要将 $W^{[2]}$ 转置，得到下式：
$dZ^{[1]}=W^{[2]T}dZ^{[2]}* g^{[1]'}(Z^{[1]})=np.dot(W^{[2]}.T,dZ^{[2]})*g^{[1]'}(Z^{[1]})$
$dW^{[1]}=\frac{1}{m} dZ^{[1]} X$
由于 $dW^{[1]}$ 维度为：4 x n_x， $dZ^{[1]}$ 的维度为4xm，X维度为n_x x m，所以将X转置，得到下式：
$dW^{[1]}=\frac{1}{m} dZ^{[1]} X^{T}$
$db^{[1]}=\frac{1}{m} dZ^{[1]}$
由于 $dZ^{[1]}$ 的维度为4xm，而 $b^{[1]}$ 维度=4x1，所以对每一行求和，得下式：
$db^{[1]}=\frac{1}{m} np.sum(dZ^{[1]})$

zhaohuan_1996

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
吴恩达深度学习第一课--第三周神经网络基础作业上正反向传播推导

文章目录正向传播推导第i个样本维度求z[1](i)、a[1](i)、z[2](i)、a[2](i)z^{[1](i)}、a^{[1](i)}、z^{[2](i)}、a^{[2](i)}z[1](i)、a[1](i)、z[2](i)、a[2](i)计算损失向量化维度求Z[1]、A[1]、Z[2]、A[2]Z^{[1]}、A^{[1]}、Z^{[2]}、A^{[2]}Z[1]、A[1]、Z[2]、A[...
复制链接

扫一扫