五、深度学习优化算法

Dragon Fly

于 2022-07-17 15:47:15 发布

阅读量1.3k

点赞数 2

分类专栏：深度学习文章标签：深度学习算法人工智能

本文链接：https://blog.csdn.net/weixin_43160744/article/details/125665891

版权

深度学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

文章目录

1、mini-batch梯度下降
2、指数加权平均-Exponential Weighted averages
- 2.1 指数加权平均的偏差修正
3、动量梯度下降- gradient with momentum
4、RMSprop
5、Adam optimization algorithm
6、Learning rate decay
7、Local optima in neural networks
THE END

1、mini-batch梯度下降

$\qquad$ mini-batch指的是将原本整个batch的数据集进行划分，e.g., 将整个数据集以1000条数据为标准划分成小的batch。
在这里插入图片描述
$\qquad$ mini-batch梯度下降的流程如下所示：
$\qquad$ 在进行mini-batch训练时，训练的成本可能不是随着训练次数增加而一直减小，而是呈现出波动下降的趋势，因为不同的mini-batch的数据之间的难易程度不一样。
在这里插入图片描述
$\qquad$ 如下图所示，mini-batch size的选择不能过大也不能过小，若size过大会减慢训练的速度，若size过小会使得训练波动性变大，训练效果变差。

$\qquad$ 若训练集的数量比较小( $\leq 1000$ )，可以不使用mini-batch训练，可以直接使用batch gradient descent进行训练。典型的mini-batch size包括64,128,256和512，一般不会使用1024以及更大的mini-batch进行模型训练。同时需要保证mini-batch size符合CPU/GPU的内存格式，否则会影响训练效果。

2、指数加权平均-Exponential Weighted averages

$\qquad$ 指数移动平均的计算式如下所示：
$v_t = \beta v_{t-1} + (1-\beta) \theta_t$
$\qquad$ 其中， $\beta \in [0,1]$ 的值可以用来衡量移动平均的时间窗跨度， $\beta$ 的值越接近于1，移动平均的时间窗跨度越大，从而移动平均之后的数据相对于原始数据的来说越平滑；反之，移动平均值后的数据和原始数据的分布越接近。
在这里插入图片描述

2.1 指数加权平均的偏差修正

$\qquad$ 在移动平均的前期，通常经过移动平均的数据相对原始数据的偏差较大，所有可以给指数移动平均添加一个修正项，修正之后的指数移动平均计算方法为：
$v_t = \frac{\beta v_{t-1} + (1-\beta) \theta_t}{1-\beta^t}$

3、动量梯度下降- gradient with momentum

$\qquad$ 动量梯度下降的执行过程如下所示，相对于普通的梯度下降算法，动量梯度下降将学习率之后的项由 $d w, d b$ 替换成了 $v_{dw}, v_{db}$ 。
在这里插入图片描述

4、RMSprop

$\qquad$ RMSProp的思想也是想要减小梯度下降过程中梯度在 $b$ 方向上的震荡幅度，同时不减小在 $w$ 方向上的收敛幅度，RMSProp的计算过程如下所示：
在这里插入图片描述

5、Adam optimization algorithm

$\qquad$ 将上述gradient descent with momentum 和 RMSProp相互结合，同时使用偏差修正之后，就得到了Adam optimization algorithm，其计算流程如下所示：
在这里插入图片描述
$\qquad$ Adam 指的是Adaptive Moment Estimation，其中的hyper parameters取值：学习率 $\alpha$ 需要通过parameter tunning 来选择调整； $\beta_1$ 通常取值为0.9， $\beta_2$ 通常取值为0.999， $\epsilon$ 通常取值为 $10^{-8}$ 。

6、Learning rate decay

$\qquad$ 使用learning rate decay的intuition是：当使用mini-batch进行训练时，当batch size选的比较小时，通常会造成学习不收敛，使得最终目标在最优值附近较大幅度地震荡，所以可以在训练初始阶段使用较大的学习率，使得训练速度加快；在之后使用比较小的学习率，使得震荡幅度减小。
在这里插入图片描述