前后向传播与参数更新的简单推理流程

最新推荐文章于 2024-08-20 19:09:04 发布

深度学习视觉

最新推荐文章于 2024-08-20 19:09:04 发布

阅读量606

点赞数 15

文章标签：深度学习基础

本文链接：https://blog.csdn.net/lucky_kai/article/details/140862688

版权

下面属于GPT生成，只参考推导流程，不要在乎计算数值和求导公式的正确性。

总的来说，反向转播就是用损失对于所有参数、隐藏层的输出计算梯度，并更新所有参数。

计算损失对于隐藏层的输出的目的是计算这个隐藏层输出对于损失的影响，并将这个影响反馈到这层的参数中，简单来说就是链式法则计算的必经之路。

设输入为 $x$ (假设为标量)，第一层权重为 $w_1$ , 偏置为 $b_1$ , 激活函数为 $\sigma(x) = \frac{1}{1 + e^{-x}}$ （Sigmoid 函数），第二层权重为 $w_2$ 和偏置为 $b_2$ 。

前向传播步骤如下：

我们用交叉熵损失函数 $L$ 来衡量模型预测 $\hat{y}$ 和实际标签 $y$ 的差异，其定义如下：
$L(\hat{y}, y) = -[y\log{\hat{y}} + (1-y)\log{(1-\hat{y})}]$

反向传播时计算参数的梯度：

对 $\hat{y}$ 的导数:
$\frac{\partial L}{\partial \hat{y}} = -(\frac{y}{\hat{y}} - \frac{1-y}{1-\hat{y}})$
对 $z_2$ 的导数 (使用链式法则):
$\frac{\partial L}{\partial z_2} = (\sigma(z_2)-y)\sigma'(z_2) = (\hat{y}-y)\hat{y}(1-\hat{y})$
对 $w_2$ 和 $b_2$ 的导数:
$\frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial z_2}\cdot a_1$
$\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial z_2}$
对 $a_1$ 的导数 (使用链式法则):
$\frac{\partial L}{\partial a_1} = w_2 (\hat{y}-y)\hat{y}(1-\hat{y})$
对 $z_1$ 的导数:
$\frac{\partial L}{\partial z_1} = \sigma'(z_1) \cdot \frac{\partial L}{\partial a_1} = (a_1)(1-a_1)\cdot w_2 (\hat{y}-y)\hat{y}(1-\hat{y})$
对 $w_1$ 和 $b_1$ 的导数:
$\frac{\partial L}{\partial w_1} = x \cdot \frac{\partial L}{\partial z_1}$
$\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial z_1}$

设 $x = 0.5$ , $w_1=2$ , $b_1=-1$ , $w_2=3$ , $b_2=-1$ 且 $y = 0$ 。

前向传播计算：

反向传播计算：

计算损失函数的导数：
$-(\frac{0}{0.6225} + \frac{1}{1-0.6225}) ≈ 2.387$
对 $z_2$ 的导数（ $\hat{y}-y=0.6225$ ）:
$\frac{\partial L}{\partial z_2} = (0.6225)(1-0.6225) ≈ 0.234$
对 $w_2$ 和 $b_2$ 的导数：
$\frac{\partial L}{\partial w_2} = 0.234 * 0.5 ≈ 0.117$
$\frac{\partial L}{\partial b_2} = 0.234$
对 $z_1$ 的导数:
$\frac{\partial L}{\partial z_1} = (0.5)(1-0.5) * 0.117 ≈ 0.02925$
对 $w_1$ 和 $b_1$ 的导数：
$\frac{\partial L}{\partial w_1} = 0.5 * 0.02925 ≈ 0.014625$
$\frac{\partial L}{\partial b_1} = 0.02925$

更新参数：
使用梯度下降算法，设学习率为 $\eta=0.1$ ，

关注