神经网络优化方法

哇咔咔负负得正

于 2022-07-13 00:28:28 发布

阅读量328

点赞数

分类专栏： ml 文章标签：神经网络机器学习深度学习

本文链接：https://blog.csdn.net/qq_39906884/article/details/125750689

版权

ml 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

0. 参考

72 优化算法
 王木头学科学
 简单认识Adam优化器

1. 梯度下降法

需要计算训练集全部 $n$ 个样本的损失 $L=\frac{1}{n}\sum_{i=1}^nloss(y_i, \hat{y}_i)$ ，进行梯度下降法优化。
$\to W-\eta \nabla L(W)$
$\eta$ 为学习率。

2. 随机梯度下降法（SGD）

由于梯度下降法每次把训练集全部样本计算损失，计算量太大，随机梯度下降法就是每次随机取一个数据近似损失，然后进行梯度下降。
虽然有噪音，但是对于凸问题来说，经过 $k$ 次训练后，SGD 能达到的误差量级为 $O(\frac{1}{\sqrt{k}})$ ；对于强凸问题误差量级为 $O(\frac{1}{k})$ 。

3. ★小批量随机梯度下降法（Mini-batch SGD）

随机挑小批量进行训练，充分利用硬件资源。

4. 冲量法（Momentum）

使用平滑过的梯度对权重更新
$V_t = \beta V_{t-1} + (1-\beta)\nabla L(W_{t-1}) \\ W_t = W_{t-1}-\eta V_t$
第一个式子的方法叫指数加权移动平均法。 $\beta$ 常取值 $[0.5, 0.9, 0.95, 0.99]$ 。

5.★ Adam（Adaptive Moment Estimation）

Adam 对梯度做平滑，而且对梯度的各个维度值做重新调整。

首先，计算梯度的指数移动平均数， $V_0$ 初始化为 $0$ ，类似于Momentum算法，综合考虑之前时间步的梯度动量， $\beta_1$ 为指数衰减率，控制权重分配（动量与当前梯度），通常取 $0.9$ ：
$V_t=\beta_1 V_{t-1}+(1-\beta_1)\nabla L(W_{t-1})$

其次，计算梯度平方的指数移动平均数， $S_t$ 初始化为 $0$ 。 $\beta_2$ 为指数衰减率，控制之前的梯度平方的影响情况，一般取 $0.999$ ：
$S_t = \beta_2 S_{t-1} + (1-\beta_2) \nabla L^2(W_{t-1})$

第三，由于 $V_0$ 初始化为 $0$ ，会导致 $V_t$ 偏向于 $0$ ，尤其在训练初期阶段。所以，此处需要对梯度均值 $V_t$ 进行偏差纠正，降低偏差对训练初期的影响：
$修正\hat{V}_t = \frac{V_t}{(1-\beta_1^t)}$

第四，与 $V_0$ 类似，因为 $S_0$ 初始化为 $0$ 导致训练初始阶段 $S_t$ 偏向 $0$ ，对其进行修正：
$修正\hat{S}_t=\frac{S_t}{(1-\beta_2^t)}$

第五，更新参数，初始的学习率 $\alpha$ 乘以梯度均值与梯度方差的平方根之比， $\epsilon$ 一般取一个很小的值防止除数为 $0$ ：
$W_t = W_{t-1} - \alpha \frac{\hat{V}_t}{\sqrt{ \hat{S}_t}+\epsilon}$

哇咔咔负负得正

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
神经网络优化方法

72 优化算法王木头学科学简单认识Adam优化器需要计算训练集全部 nnn 个样本的损失 L=1n∑i=1nloss(yi,y^i)L=\frac{1}{n}\sum_{i=1}^nloss(y_i, \hat{y}_i)L=n1∑i=1nloss(yi,y^i)，进行梯度下降法优化。W→W−η∇L(W)W \to W-\eta \nabla L(W)W→W−η∇L(W)η\etaη 为学习率。由于梯度下降法每次把训练集全部样本计算损失，计算量太大，随机梯度下降法就是每次随机取一个数据
复制链接

扫一扫