深度学习的正、反向传播与梯度下降的实例

最新推荐文章于 2022-07-25 16:45:38 发布

Bokman

最新推荐文章于 2022-07-25 16:45:38 发布

阅读量779

点赞数 1

分类专栏：深度学习文章标签：深度学习随机梯度下降

本文链接：https://blog.csdn.net/Bokman/article/details/109983897

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

采用3层的全连接网络，首先正向传播一次并计算误差，之后反向传播一次更新参数，最后再次正向传播并计算误差

全连接网络的具体结构如下：

输入参数(input_param)： $\begin{vmatrix} 2 & 0 & 3\\ 0 & 1 & 0 \end{vmatrix}$

初始化第一层权重(w1)： $\begin{vmatrix} 2 & 3\\ 0 & 1\\ 1 & 3 \end{vmatrix}$

初始化第二层参数(w2): $\begin{vmatrix} 1 & 2\\ 3 & 4 \end{vmatrix}$

给定预期的输出(output): $\begin{vmatrix} 50 & 71\\ 1 & 3 \end{vmatrix}$

1. 第一次正向传播及计算误差

进行第一次正向传播得到输出(pred)：

pred = input_param * w1 * w2

$\begin{vmatrix} 2 & 0 & 3\\ 0 & 1 & 0 \end{vmatrix} \times \begin{vmatrix} 2 & 3\\ 0 & 1\\ 1 & 3 \end{vmatrix} \times \begin{vmatrix} 1 & 2\\ 3 & 4 \end{vmatrix} = \begin{vmatrix} 52 & 74\\ 3 & 4 \end{vmatrix}$

其中隐藏层(hidden)在第一次正向传播中各个参数为：

hidden = input_param * w1

$\begin{vmatrix} 2 & 0 & 3\\ 0 & 1 & 0 \end{vmatrix} \times \begin{vmatrix} 2 & 3\\ 0 & 1\\ 1 & 3 \end{vmatrix} = \begin{vmatrix} 7 & 15\\ 0 & 1 \end{vmatrix}$

计算第一次正向传播得出的结果和预期输出之间的误差(grad_pred)：

grad_pred = pred - output

$\begin{vmatrix} 54 & 74\\ 3 & 4 \end{vmatrix} - \begin{vmatrix} 50 & 71\\ 1 & 3 \end{vmatrix} = \begin{vmatrix} 2 & 3\\ 2 & 1 \end{vmatrix}$

误差的范数为：4.1306

2. 第一次反向传播及更新参数

第二层权重的梯度(grad_w2)：

grad_w2 = hidden' * grad_pred (注意hidden需要转置)

$\begin{vmatrix} 7 & 0\\ 15 & 1 \end{vmatrix} \times \begin{vmatrix} 2 & 3\\ 2 & 1 \end{vmatrix} = \begin{vmatrix} 14 & 21\\ 32 & 46 \end{vmatrix}$

hidden层的梯度(grad_hidden):

grad_hidden = grad_pred * w2' (注意w2需要转置)

$\begin{vmatrix} 2 & 3\\ 2 & 1 \end{vmatrix} \times \begin{vmatrix} 1 & 3\\ 2 & 4 \end{vmatrix} = \begin{vmatrix} 8 & 18\\ 4 & 10 \end{vmatrix}$

第一层权重的梯度(grad_w1):

grad_w1 = input_param' * grad_hidden (注意input_param需要转置)

$\begin{vmatrix} 2 & 0\\ 0 & 1\\ 3 & 0 \end{vmatrix} \times \begin{vmatrix} 8 & 18\\ 4 & 10 \end{vmatrix} = \begin{vmatrix} 16 & 36\\ 4 & 10\\ 24 & 54 \end{vmatrix}$

更新神经网络的两层权重(w1和w2):

new_w1 = w1 - learning_rate * grad_w1

$\begin{vmatrix} 2 & 3\\ 0 & 1\\ 1 & 3 \end{vmatrix} - 0.002 \times \begin{vmatrix} 16 & 36\\ 4 & 10\\ 24 & 54 \end{vmatrix}=\begin{vmatrix} 1.968 & 2.928\\ -0.008 & 0.98\\ 0.952 & 2.892 \end{vmatrix}$

new_w2 = w2 - learning_rate * grad_w2

$\begin{vmatrix} 1 & 2\\ 3 & 4 \end{vmatrix} - 0.002 \times \begin{vmatrix} 14 & 21\\ 32 & 46 \end{vmatrix} = \begin{vmatrix} 0.972 & 1.958\\ 2.936 & 3.908 \end{vmatrix}$

3. 第一次正向传播及计算误差

进行第二次正向传播得到输出(new_pred)：

$\begin{vmatrix} 2 & 0 & 3\\ 0 & 1 & 0 \end{vmatrix} \times \begin{vmatrix} 1.968 & 2.928\\ -0.008 & 0.98\\ 0.952 & 2.892 \end{vmatrix} \times \begin{vmatrix} 0.972 & 1.958\\ 2.936 & 3.908 \end{vmatrix} = \begin{vmatrix} 49.2678 & 70.0898\\ 2.8695 & 3.8142 \end{vmatrix}$

计算第二次正向传播得出的结果和预期输出之间的误差(new_grad_pred)：

$\begin{vmatrix} 49.2678 & 70.0898\\ 2.8695 & 3.8142 \end{vmatrix} - \begin{vmatrix} 50 & 71\\ 1 & 3 \end{vmatrix} = \begin{vmatrix} -0.7322 & -0.9102\\ 1.8695 & 0.8142 \end{vmatrix}$