深度学习（吴恩达）第二课——第三周浅层神经网络

raishu

已于 2022-03-21 00:12:47 修改

阅读量1.2k

点赞数

文章标签： python

于 2022-03-20 01:18:37 首次发布

本文链接：https://blog.csdn.net/raishu/article/details/123604725

版权

本文详细解析了神经网络中单样本和多样本的前向传播公式，涉及权重矩阵W、偏置项b的形状，以及激活函数、梯度下降和参数更新过程。重点介绍了如何通过链式法则计算梯度并进行反向传播，包括δ值的计算和参数W、b的梯度更新。同时讨论了随机初始化的必要性和技巧，如吴恩达老师的初始化建议。

摘要由CSDN通过智能技术生成

向量化实现的解释

首先要把几个符号的上下标搞清楚

在这里插入图片描述

在下面这个前向传播的推导中

在这里插入图片描述
关键点如下：

单样本的推导公式是这个

i代表第i个样本，1代表第一层。
W的shape是[第1层的神经元个数，和第0层的神经元个数]；b的shape是[第1层的神经元个数，1]；
多样本的推导是这个
将各个样本按照列向量堆叠

1代表第1层隐藏层
在多样本中，X的shape是[样本的特征数（输入层的神经元个数）, 样本数]

激活函数

激活函数的导数

梯度下降

参数

在这里插入图片描述
$n_x=n^{[0]}代表第0层（输入层）的神经元个数$
$n^{[1]} 代表第1层的神经元个数$
$W^{[1]}$ 的shape是 $n^{[1]}$ , $n^{[0]})$ , 即：（第1层的神经元个数，上一层(0层)的神经元个数)
$b^{[1]}$ 的shape是 $n^{[1]}$ , $1)$ , 即：（第1层的神经元个数， 1)
依次类推其他层的W，b的意思和shape

损失函数

损失函数J是一个关于网络参数W,b 的函数。整体来说可以这么去求：
在这里插入图片描述
等号右边是算所有样本的y_true和y_pred的误差（mse或者是mae等等）

梯度下降

在这里插入图片描述
整体是做一个循环，就是收敛时循环结束
在循环内
①计算所有样本的y_pred。（就是课程第三节提到的计算神经网络的输出）

②计算每一层网络参数（ $W^{[1]}$ ， $b^{[1]}$ , $W^{[2]}$ , $b^{[2]}$ …）的梯度

即 $dW^{[1]} = \frac{dJ}{dW^{[1]}}$ $db^{[1]} = \frac{dJ}{db^{[1]}}$ … … …and so on

③④更新W，b了

总结一下正向传播和反向传播的公式

前向传播

$z^{[l]} = W^{[l]} ·a^{[l-1]}+b^{[l]}$
$a^{[l]} = g^{[l]}(z^{[l]})$

反向传播

① $d_z^{[l]} =d_a^{[l]}*g^{[l]}`(z^{[l]}) =W^{[l+1]}·d_z^{[l+1]}*g^{[l]}`(z^{[l]})$

② $d_W^{[l]}=d_z^{[l]}·a^{[l-1]}$

③ $d_b^{[l]} = d_z^{[l]}$

④ $d_a^{[l-1]}=W^{[l]}·d_z^{[l]}$

反向传播这四个主要公式的推导

知道 $\delta^{[l]} = d_Z^{[l]}=\frac{\partial J}{\partial z^{[l]}}$ ; $\delta_j^{[l]}$ = “error” of node j in layer l
公式①的推导通过如下公式

$d_z^{[l]}=\frac{\partial J}{\partial a^{[l]}}\frac{\partial a^{[l]}}{\partial z^{[l]}}$ (然后两个分式分别求解即可)
$a^{[l]} = g^{[l]}(z^{[l]})$

公式②③的推导要借助下面的公式

$d_W^{[l]}=\frac{\partial J}{\partial z^{[l]}}\frac{\partial z^{[l]}}{\partial W^{[l]}}$
$d_b^{[l]}=\frac{\partial J}{\partial z^{[l]}}\frac{\partial z^{[l]}}{\partial b^{[l]}}$
(然后两个分式分别求解即可)
$z^{[l]} = W^{[l]} ·a^{[l-1]}+b^{[l]}$ (然后利用求偏导数的原理，求对W的偏导即可)

公式④的推导要借助下面的公式

$d_a^{[l-1]}=\frac{\partial J}{\partial z^{[l]}}\frac{\partial z^{[l]}}{\partial a^{[l-1]}}$
(然后两个分式分别求解即可)
$z^{[l]} = W^{[l]} ·a^{[l-1]}+b^{[l]}$ (然后利用求偏导数的原理，求对W的偏导即可)