深度学习（1）—基于梯度优化的理解

最新推荐文章于 2023-01-14 19:42:16 发布

Mrs.King_UP

最新推荐文章于 2023-01-14 19:42:16 发布

阅读量385

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_38936560/article/details/113187291

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

对基于梯度优化的理解：
$y\_ pred=relu(dot(W,X)+b)$
训练过程

抽取训练样本x和相应目标y组成数据批量
在x上运行网络（前向传播），得到预测值y_pred
计算网络在这批数据上的损失，用于衡量y_pred和y之间的距离
更新网络的所有权重，使网络在这批数据上的损失略微下降

训练的过程就是得到合适的W和b，使得y_pred与y之间的距离非常小。但是如何更新网络权重W？？？

考虑一个权重 $w_{i}$ ,初始值为0.3，前向传播后得到损失为0.5；将 $w_{i}$ 变为0.35，重新进行前向传播，损失增大到0.6；如果将 $w_{i}$ 变为0.25，损失减小到0.4，这说明 $w_{i}$ 减小有助于损失最小化。

对于网络中大量的权重，采用这一方法：计算损失（loss_function）相对于权重（W）的梯度，向梯度的反方向改变权重，从而使网络损失减小。

一元函数举例：

在这里插入图片描述

$w_{0}$ 左侧：损失函数相对于 $w$ 的导数为负，为使损失函数最小，则 $w$ 沿正方向移动；
$w_{0}$ 右侧：损失函数相对于 $w$ 的导数为正，为使损失函数最小，则 $w$ 沿负方向移动；

同样的，在多元函数上，导数可以推广到梯度上。
$y\_pred=dot(W,X)$ $loss\_value=loss(y\_pred,y)$
输入数据 $X$ 和 $y$ 保持不变，讨论 $W$ 的变化如何影响 $loss\_value$ 。可以将 $loss\_value$ 看作 $W$ 的函数， $loss\_value=f(W)$ ，对于 $f (W)$ ，将 $W$ 向梯度的反方向移动来减小 $f (W)$ ,即减小 $loss\_value$ 。

函数的最小值是导数为0的点对应的函数值， $loss\_value$ 最小值为梯度（对W的梯度）为0的点对应的值，如上图，即 $loss\_value（w'）$

上述训练过程修改为：

抽取训练样本x和相应目标y组成数据批量
在x上运行网络（前向传播），得到预测值y_pred
计算网络在这批数据上的损失，用于衡量y_pred和y之间的距离
计算 $l o s s$ 相对于 $W$ 的梯度（一次反向传播）
将 $W$ 沿着梯度的反方向移动一点，比如： $W - = s t e p * g r a d i e n t$ ,从而使这批数据损失减小
重复4，5，直到梯度为0

上述描述的方法为梯度下降，首先初始化参数 $W$ ，然后迭代更新这些参数使损失函数不断变小，梯度下降法可以分为三种：

批量梯度下降法（Batch Gradient Descent, BGD）：每次使用全部数据计算梯度去更新参数
随机梯度下降法（Stochastic Gradient Descent, SGD）：每次迭代仅选择一个训练样本去计算代价函数的梯度，然后更新参数
小批量梯度下降法（Mini-Batch Gradient Descent, MBGD）：每次迭代中仅使用m个训练样本去计算代价函数的梯度

参考链接：三种类型的梯度下降算法 ;梯度下降法的总结

Mrs.King_UP

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度学习（1）—基于梯度优化的理解

对基于梯度优化的理解：y_pred=relu(dot(W,X)+b)y\_ pred=relu(dot(W,X)+b)y_pred=relu(dot(W,X)+b)训练过程抽取训练样本x和相应目标y组成数据批量在x上运行网络（前向传播），得到预测值y_pred计算网络在这批数据上的损失，用于衡量y_pred和y之间的距离更新网络的所有权重，使网络在这批数据上的损失略微下降训练的过程就是得到合适的W和b，使得y_pred与y之间的距离非常小。但是如何更新网络权重W？？？考虑一个权重wiw_
复制链接

扫一扫