【深度学习】优化器（optimizer）

JNingWei

已于 2023-01-25 16:20:40 修改

阅读量1.8k

点赞数

分类专栏：深度学习文章标签：深度学习人工智能计算机视觉

于 2018-02-03 19:46:47 首次发布

本文链接：https://blog.csdn.net/JNingWei/article/details/79247375

版权

深度学习专栏收录该内容

79 篇文章 60 订阅

订阅专栏

优化算法类型

优化算法类型包括一阶优化法和二阶优化法：

	一阶优化法	二阶优化法
具体算法	随机梯度下降法、基于动量的随机梯度下降法、Nesterov型动量随机下降法、Adagrad法、Adadelta法、RMSProp法、Adam法	牛顿法
计算难度	较易	难
运用程度	主流	少有人用

一阶优化法对比

		随机梯度下降法	Nesterov型动量随机下降法	Adagrad法	Adadelta法	RMSProp法
运用程度		最广
训练速度	慢		快	快	快	快
模型结果	可靠	可靠

随机梯度下降法、基于动量的随机梯度下降法和 Nesterov型动量随机下降法彼此性能相近；
Adagrad法、Adadelta法、RMSProp法和 Adam法彼此性能相近。

一阶优化法

$\omega$ ：待学习参数；
$\eta$ ：学习率；
$g$ ：一阶梯度值；
$t$ ：第 $t$ 轮训练。

随机梯度下降法

随机梯度下降算法，Stochastic Gradient Descent，简称 SGD 。

$\omega_{t} \leftarrow \omega_{t-1} - \eta \cdot g$

基于动量的随机梯度下降法

由于SGD更新时可能出现振荡，遂通过 累积前几轮的动量 (momentum) 信息 来 辅助参数更新：

$v_{t} \leftarrow \mu \cdot v_{t-1} - \eta \cdot g$

$\omega_{t} \leftarrow \omega_{t-1} + v_{t}$

$\mu$ ：动量因子，控制动量信息对整体梯度更新的影响程度。设置方法分为静态 (始终为 0.9) 和动态 (初始为 0.5，逐渐增长为 0.9 或 0.99) 。

Nesterov型动量随机下降法

较罕见，遂略过。

Adagrad法

根据训练轮数的不同，对学习率进行动态调整：

$\eta_{t} \leftarrow \frac{\eta_{global}}{\sqrt{\sum_{t′=1}^t g_{t'}^2 + \epsilon}} \cdot g_{t}$

$\eta_{global}$ ：全局学习率 (必须提前指定) ；
$\epsilon$ ：防止分母为0。

初始时， $\eta_{t}$ 接近于 $\eta_{global}$ ，随着 $\sum_{t′=1}^t g_{t'}^2$ 的不断增大， $\eta_{t}$ 渐渐趋近于 0 。

Adadelta法

Adadelta法在 Adagrad法的基础上，通过引入衰减因子 $\rho$ ，使得 $g$ 也和 $\eta_{global}$ 一起来对 $\eta_{t}$ 施加影响，防止 $\eta_{global}$ 垄断：

$r_{t} \leftarrow \rho \cdot r_{t-1} + (1-\rho) \cdot g^2$

$\eta_{t} \leftarrow \frac{\sqrt{s_{t-1} + \epsilon}}{\sqrt{r_t + \epsilon}}$

$s_{t} \leftarrow \rho \cdot s_{t-1} + (1-\rho) \cdot (\eta_{t} \cdot g)^2$

$\rho$ ：衰减因子，取值范围 [0, 1] ，值越大越促进网络更新，推荐为 0.95 ；
$\epsilon$ ：防止为 0，推荐为 $10^{-6}$ 。

RMSProp法

较罕见，遂略过。

Adam法

在 RMSProp法基础上加上了 动量项 。

利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。

Adam和Nadam是前述方法的集大成者：SGD-M在SGD基础上增加了一阶动量，AdaGrad和AdaDelta在SGD基础上增加了二阶动量。把 一阶动量 $\beta_{1}$ 和 二阶动量 $\beta_{2}$ 都用起来，就是 Adam（Adaptive + Momentum）了。