模型参数、梯度更新步骤【初始化参数、前向传播得到模型输出值、计算输出值与目标值之间损失Loss、反向传播梯度下降更新参数】

u013250861

已于 2024-01-29 23:55:10 修改

阅读量2k

点赞数 4

分类专栏： # 深度学习/DL 梯度文章标签：人工智能机器学习深度学习算法神经网络

于 2020-12-17 23:11:11 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/111326140

版权

计算图：通过图的方式来描述函数的图形已知J(a,b,c)=3(a+bc),令v=bc,u=a+vJ(a,b,c) = 3(a+bc),令v = bc, u=a+vJ(a,b,c)=3(a+bc),令v=bc,u=a+v,求a，b，c各自的偏导数。令:a+bc=u,即：J=3udJda=dJdu×duda=3×1dJdb=dJdu×dudv×dvdb=3×1×cdJdc=dJdu×dudv×dvdc=3×1×b\begin{aligned} 令:&a+bc=u, 即： J = 3u\\ \frac{

摘要由CSDN通过智能技术生成

深度学习：模型更新步骤【初始化参数、前向传播（ForwardPropagation）得到模型输出值、计算输出值与目标值之间损失、反向传播（BackPropagation）梯度下降更新参数】

一、单层、单一输出“感知机”梯度
二、单层、多输出“感知机”梯度
三、多层、多输出“感知机”梯度
二、反向传播算法-链式法则
三、模型更新步骤
四、Pytorch完成线性回归
案例：手工创建多层感知机利用numpy进行梯度优化(手写数字识别)
案例：手工创建参数、函数-->利用tf.GradientTape()进行梯度优化(手写数字识别)

一、单层、单一输出“感知机”梯度

在这里插入图片描述

二、单层、多输出“感知机”梯度

在这里插入图片描述

三、多层、多输出“感知机”梯度

在这里插入图片描述

二、反向传播算法-链式法则

1、计算图和反向传播

计算图：通过图的方式来描述函数的图形

已知 $J (a, b, c) = 3 (a + b c), 令 v = b c, u = a + v $ ,求a，b，c各自的偏导数。

$\begin{aligned} 令:&a+bc=u, 即： J = 3u\\ \frac{dJ}{da} &=\frac{dJ}{du} \times \frac{du}{da} = 3\times1 \\ \frac{dJ}{db} &=\frac{dJ}{du} \times \frac{du}{dv} \times \frac{dv}{db} = 3\times1\times c \\ \frac{dJ}{dc} &=\frac{dJ}{du} \times \frac{du}{dv} \times \frac{dv}{dc} = 3\times1\times b \\ \end{aligned}$

把 $J = 3 (a + b c), 令 v = b c, u = a + v $ 绘制成计算图可以表示为：

在这里插入图片描述
绘制成为计算图之后，可以清楚的看到向前计算的过程

之后，对每个节点求偏导可有：

在这里插入图片描述
那么反向传播的过程就是一个上图的从右往左的过程，自变量 $a, b, c$ 各自的偏导就是连线上的梯度的乘积：

$\begin{aligned} \frac{dJ}{da} &= 3 \times 1 \\ \frac{dJ}{db} &= 3 \times 1 \times c \\ \frac{dJ}{dc} &= 3 \times 1 \times b \end{aligned}$

2、神经网络中的反向传播

2.1 神经网络的示意图

$W 1, W 2, .... Wn$ 表示网络第n层权重

$Wn [i, j]$ 表示第 $n$ 层第 $i$ 个神经元，连接到第 $n + 1$ 层第 $j$ 个神经元的权重。

在这里插入图片描述

2.2 神经网络的计算图

在这里插入图片描述
其中：

$\nabla out$ 是根据损失函数对预测值进行求导得到的结果
$f$ 函数可以理解为激活函数

问题：那么此时 $W_1[1,2]$ 的偏导该如何求解呢？

通过观察，发现从 $o u t$ 到 $W_1[1,2]$ 的来连接线有两条

在这里插入图片描述
结果如下：
$\frac{dout}{dW_1[1,2]} = x1*f^{'}(a2)*\left\{W_2[2,1]*f^{'}(b1)*W_3[1,1]*\nabla out +W_2[2,2]*f^{'}(b2)*W_3[2,1]*\nabla out\right\}$

公式分为两部分：

括号外：左边红线部分
括号内
1. 加号左边：右边红线部分
2. 加号右边：蓝线部分

但是这样做，当模型很大的时候，计算量非常大

所以反向传播的思想就是对其中的某一个参数单独求梯度，之后更新，如下图所示：

在这里插入图片描述
计算过程如下
$\begin{aligned} &\nabla W_3[1,1] = f(b_1)*\nabla out & （计算W_3[1,1]梯度）\\ &\nabla W_3[2,1] = f(b_2)*\nabla out & （计算W_3[2,1]梯度）\\ \\ &\nabla b_1= f^{'}(b_1)*W_3[1,1]*\nabla out & （计算W_3[2,1]梯度）\\ &\nabla b_2= f^{'}(b_2)*W_3[2,1]*\nabla out & （计算W_3[2,1]梯度）\\ \end{aligned}$

更新参数之后，继续反向传播

在这里插入图片描述
计算过程如下：
$\begin{aligned} &\nabla W_2[1,2] = f(a_1)* \nabla b_2 \\ &\nabla a_2 = f^{'}(a_2)*(w_2[2,1]\nabla b_1 +W_2[2,2] \nabla b_2) \end{aligned}$

继续反向传播

在这里插入图片描述
计算过程如下：
$\begin{aligned} &▽W_1[1,2]= x_1*▽a_2\\ &▽x_1= (W_1[1,1]*▽a_1+w_1[1,2]*▽a_2)*x_1’ \end{aligned}$

通用的描述如下
$\nabla w^{l}_{i,j} = f(a^l_i)* \nabla a^{i+1}_{j}\\ \nabla a^{l}_i = f'(a^l_i)*(\sum_{j=1}^{m}w_{i,j}*\nabla a_j^{l+1})$

2.3 反向传播算法-链式法则

在这里插入图片描述

反向传播算法-链式法则：

$\color{red}{\cfrac{\partial l}{\partial w^{(1)}_{11}}}=$
$\color{red}{\cfrac{\partial l}{\partial w^{(2)}_{11}}}=$
$\color{red}{\cfrac{\partial l}{\partial w^{(3)}_{11}}}=$

最低0.47元/天解锁文章

u013250861

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
模型参数、梯度更新步骤【初始化参数、前向传播得到模型输出值、计算输出值与目标值之间损失Loss、反向传播梯度下降更新参数】

计算图：通过图的方式来描述函数的图形已知J(a,b,c)=3(a+bc),令v=bc,u=a+vJ(a,b,c) = 3(a+bc),令v = bc, u=a+vJ(a,b,c)=3(a+bc),令v=bc,u=a+v,求a，b，c各自的偏导数。令:a+bc=u,即：J=3udJda=dJdu×duda=3×1dJdb=dJdu×dudv×dvdb=3×1×cdJdc=dJdu×dudv×dvdc=3×1×b\begin{aligned} 令:&a+bc=u, 即： J = 3u\\ \frac{
复制链接

扫一扫