神经网络中的前向传播和反向传播理解

最新推荐文章于 2024-07-28 03:59:40 发布

liguiyuan112

最新推荐文章于 2024-07-28 03:59:40 发布

阅读量3.3k

点赞数

分类专栏： AI 算法

本文链接：https://blog.csdn.net/u012505617/article/details/89716928

版权

AI 同时被 2 个专栏收录

42 篇文章 2 订阅

订阅专栏

算法

6 篇文章 2 订阅

订阅专栏

前向传播

输入 $a^{\left [ l-1 \right ]}$ ，输出 $a^{[l]}$ ，缓存为 $z^{[l]}$

前向传播的过程：

$z^{\left [ l \right ]} = W^{\left [ l \right ]}.a^{[l-1]} + b^{[l]}$

$a^{[l]} = g^{[l]}(z^{[l]})$

向量化的过程可以写成：

$Z^{[l]} = W^{[l]}.A^{[l-1]} + b^{[l]}$

$A^{[l]} = g^{[l]}(Z^{[l]})$

式中， $A^{[0]}$ 就是初始的输入X。如下图的两层神经网络所示，可以很好的理解。

反向传播

反向传播主要采用数学上的链式法则，反向传播的公式推导可以总结为4个公式。

输入 $da^{[l]}$ ，输出 $da^{[l-1]}$ ， $dw^{[l]}$ ， $db^{[l]}$

$\frac{\partial C}{\partial a_{j}^{[l]}} = \frac{\partial C(a_{j}^{[l]}, y_j)}{\partial a_{j}^{[l]}}$

$\frac{\partial C}{\partial w_{j}^{[l]}} = \frac{\partial C}{\partial a_{j}^{[l]}} \frac{\partial a_{j}^{[l]}}{\partial z_{j}^{[l]}} \frac{\partial z_{j}^{[l]}}{\partial w_{j}^{[l]}}$

$\frac{\partial C}{\partial b_{j}^{[l]}} = \frac{\partial C}{\partial a_{j}^{[l]}} \frac{\partial a_{j}^{[l]}}{\partial z_{j}^{[l]}} \frac{\partial z_{j}^{[l]}}{\partial b_{j}^{[l]}}$

$\frac{\partial C}{\partial a_{j}^{[l-1]}} = \frac{\partial C}{\partial a_{j}^{[l]}} \frac{\partial a_{j}^{[l]}}{\partial z_{j}^{[l]}} \frac{\partial z_{j}^{[l]}}{\partial a_{j}^{[l-1]}}$