神经网络前向传播和反向传播算法简介

m0_73816372

已于 2022-10-21 15:37:28 修改

阅读量718

点赞数 1

文章标签：神经网络算法深度学习

于 2022-10-21 15:34:18 首次发布

本文链接：https://blog.csdn.net/m0_73816372/article/details/127447564

版权

六、神经网络

1. 绪论

神经网络是由感知机中的元件作为基本组成元件构造的多层网络结构，其模型的构建计算过程y=f(x) 我们通常称为前向传播，梯度下降过程中计算导数通常称为反向传播。

统计学习方法：感知机- 桂。 - 博客园

figure 1 感知机模型

卷积神经网络CNN总结- Madcola - 博客园

figure 2 神经网络模型

2. 前向传播

在写明计算公式前先声明一些变量定义。输出求和节点的向量记为z，经过激活函数的记为a，此层的权重记为W，偏差记为b，其有如下关系：
$a^{[l]} = \sigma(z^{[l]})=\sigma(W^{[l]}a^[[l-1]]+b^{[l]})$
其中 $a^{[l]}$ 向量的维度为 $n^{[l]} * 1$ ， $W^{[l]}$ 的维度为 $n^{[l]} * n^{[l-1]}$ , $b^{[l]}$ 向量的维度为 $n^{[l]} * 1$

假定输入层为第0层，其输出的变量定义为 $a^{[0]} =x$

上述这个公式的计算过程其实就是前向传播算法。直到最后一层输出层我们计算出最终的 $y=a^{output}$

3. 反向传播

模型构建好了，此时我们需要对其构建一个损失函数，然后进行梯度下降，此过程中有大量的参数W, b。那么如何计算呢? 我们利用链式法则！假设损失函数为J，

假设我们已知 $\frac{\partial J}{\partial {a^{[l+1]}}}$ , 因为 $a^{[l+1]} = \sigma(z^{[l+1]})$ ,则有：
$\frac{\partial J}{\partial {z^{[l+1]}}} = \frac{\partial J}{\partial {a^{[l+1]}}} * \frac{\partial {a^{[l+1]}}}{\partial {z^{[l+1]}}} =\frac{\partial J}{\partial {a^{[l+1]}}} * \sigma'(z^{[l+1]})$

又因为 $z^{[l+1]}=W^{[l+1]}a^[[l]]+b^{[l+1]}$
$\frac{\partial J}{\partial {W^{[l+1]}}} = \frac{\partial J}{\partial {z^{[l+1]}}} * \frac{\partial {z^{[l+1]}}}{\partial {W^{[l+1]}}} = \frac{\partial J}{\partial {a^{[l+1]}}} * \sigma'(z^{[l+1]}) * (a^{[l]})^T \\ \frac{\partial J}{\partial {b^{[l+1]}}} = \frac{\partial J}{\partial {z^{[l+1]}}} * \frac{\partial {z^{[l+1]}}}{\partial {b^{[l+1]}}} = \frac{\partial J}{\partial {a^{[l+1]}}} * \sigma'(z^{[l+1]}) \\ \frac{\partial J}{\partial {a^{[l]}}} = \frac{\partial J}{\partial {z^{[l+1]}}} * \frac{\partial {z^{[l+1]}}}{\partial {a^{[l]}}} = (W^{[l+1]})^T * \frac{\partial J}{\partial {a^{[l+1]}}}* \sigma'(z^{[l+1]})$
通过上述的反向传播计算过程即可计算出所有权重的偏导数。