优化算法

最新推荐文章于 2024-05-12 09:00:00 发布

Horcham

最新推荐文章于 2024-05-12 09:00:00 发布

阅读量787

点赞数

分类专栏：神经网络深度学习

深度学习同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

神经网络

8 篇文章 0 订阅

订阅专栏

优化算法

转自：https://zhuanlan.zhihu.com/p/32230623

主要框架

待优化参数: $w$
目标函数: $f(x)$
初始学习率: $\alpha$
而后，开始进行迭代优化。
在每个epoch t：

计算目标函数关于当前参数的梯度：
$g t = \nabla f (w t)$ $g_t=\nabla f(w_t)$
根据历史梯度计算一阶动量和二阶动量：
$m t = ϕ (g 1, g 2, \dots, g t); V t = ψ (g 1, g 2, \dots, g t) ，$ $m_t = \phi(g_1, g_2, \cdots, g_t); V_t = \psi(g_1, g_2, \cdots, g_t)，$
计算当前时刻的下降梯度：
$η t = α V t ‾ ‾ \sqrt m t$ $\eta_t = \frac{\alpha}{\sqrt{V_t}}m_t$
根据下降梯度进行更新：
$w t + 1 = w t - η t$ $w_{t+1} = w_t - \eta_t$

SGD

SGD没有动量概念，即

m t = g t

$m_t = g_t$

V t = I 2

$V_t = I^2$
代入步骤3，可以看到下降梯度就是最简单的

η t = α \cdot g t

$\eta_t = \alpha \cdot g_t$
SGD最大的缺点是下降速度慢，而且可能会在沟壑的两边持续震荡，停留在一个局部最优点。

待优化参数: $w$
目标函数: $f(x)$
初始学习率: $\alpha$
而后，开始进行迭代优化。

For epoch t：

计算目标函数关于当前参数的梯度：
$g t = \nabla f (w t)$ $g_t=\nabla f(w_t)$
根据历史梯度计算一阶动量：
$m t = g t$ $m_t = g_t$
计算当前时刻的下降梯度：
$η t = α g t$ $\eta_t = \alpha g_t$
根据下降梯度进行更新：
$w t + 1 = w t - η t$ $w_{t+1} = w_t - \eta_t$

SGD with Momentum

为了抑制SGD的震荡，SGDM认为梯度下降过程可以加入惯性。下坡的时候，如果发现是陡坡，那就利用惯性跑的快一些。SGDM全称是SGD with momentum，在SGD基础上引入了一阶动量：

m t = β 1 \cdot m t - 1 + (1 - β 1) \cdot g t

$m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1)\cdot g_t$

一阶动量是各个时刻梯度方向的指数移动平均值，约等于最近 $1/(1-\beta_1)$ 个时刻的梯度向量和的平均值。

也就是说， $t$ 时刻的下降方向，不仅由当前点的梯度方向决定，而且由此前累积的下降方向决定。 $\beta_1$ 的经验值为0.9，这就意味着下降方向主要是此前累积的下降方向，并略微偏向当前时刻的下降方向。想象高速公路上汽车转弯，在高速向前的同时略微偏向，急转弯可是要出事的。

待优化参数: $w$
目标函数: $f(x)$
初始学习率: $\alpha$ ，动量参数 $\beta_1$
而后，开始进行迭代优化。

For epoch t：

计算目标函数关于当前参数的梯度：
$g t = \nabla f (w t)$ $g_t=\nabla f(w_t)$
根据历史梯度计算一阶动量：
$m t = β 1 \cdot m t - 1 + (1 - β 1) \cdot g t$ $m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1)\cdot g_t$
计算当前时刻的下降梯度：
$η t = α g t$ $\eta_t = \alpha g_t$
根据下降梯度进行更新：
$w t + 1 = w t - η t$ $w_{t+1} = w_t - \eta_t$

AdaGrad

二阶动量的出现，才意味着“自适应学习率”优化算法时代的到来。SGD及其变种以同样的学习率更新每个参数，但深度神经网络往往包含大量的参数，这些参数并不是总会用得到（想想大规模的embedding）。对于经常更新的参数，我们已经积累了大量关于它的知识，不希望被单个样本影响太大，希望学习速率慢一些；对于偶尔更新的参数，我们了解的信息太少，希望能从每个偶然出现的样本身上多学一些，即学习速率大一些。

怎么样去度量历史更新频率呢？那就是二阶动量——该维度上，迄今为止所有梯度值的平方和：

V t = \sum τ = 1 t g 2 τ

$V_t = \sum_{\tau=1}^{t} g_\tau^2$

我们再回顾一下步骤3中的下降梯度：

η t = m t α V t ‾ ‾ \sqrt

$\eta_t = m_t\frac{\alpha}{\sqrt{V_t}}$

可以看出，此时实质上的学习率由 $\alpha$ 变成了 $\frac{\alpha}{V_t}$ 。一般为了避免分母为0，会在分母上加一个小的平滑项。因此 $\sqrt{V_t}$ 是恒大于0的，而且参数更新越频繁，二阶动量越大，学习率就越小。

这一方法在稀疏数据场景下表现非常好。但也存在一些问题：因为 $\sqrt{V_t}$ 是单调递增的，会使得学习率单调递减至0，可能会使得训练过程提前结束，即便后续还有数据也无法学到必要的知识。

待优化参数: $w$
目标函数: $f(x)$
初始学习率: $\alpha$
而后，开始进行迭代优化。

For epoch t：

计算目标函数关于当前参数的梯度：
$g t = \nabla f (w t)$ $g_t=\nabla f(w_t)$
根据历史梯度计算一阶动量，二阶动量：
$m t = ϕ (g 1, g 2, \dots, g t) （可取 S G D 或 M o m e n t u m 等）$ $m_t = \phi(g_1, g_2, \cdots, g_t) （可取SGD或Momentum等）$
$V t = \sum τ = 1 t g 2 t$ $V_t = \sum_{\tau=1}^{t} g_t^2$
计算当前时刻的下降梯度：
$η t = m t α V t ‾ ‾ \sqrt$ $\eta_t = m_t\frac{\alpha}{\sqrt{V_t}}$
根据下降梯度进行更新：
$w t + 1 = w t - η t$ $w_{t+1} = w_t - \eta_t$

SGD with Nesterov Acceleration

SGD 还有一个问题是困在局部最优的沟壑里面震荡。想象一下你走到一个盆地，四周都是略高的小山，你觉得没有下坡的方向，那就只能待在这里了。可是如果你爬上高地，就会发现外面的世界还很广阔。因此，我们不能停留在当前位置去观察未来的方向，而要向前一步、多看一步、看远一些。

NAG全称Nesterov Accelerated Gradient，是在SGD、SGD-M的基础上的进一步改进，改进点在于步骤1。我们知道在时刻t的主要下降方向是由累积动量决定的，自己的梯度方向说了也不算，那与其看当前梯度方向，不如先看看如果跟着累积动量走了一步，那个时候再怎么走。因此，NAG在步骤1，不计算当前位置的梯度方向，而是计算如果按照累积动量走了一步，那个时候的下降方向：

g t = \nabla f (w t - m t - 1 α V t - 1 ‾ ‾ ‾ ‾ \sqrt)

$g_t=\nabla f(w_t- m_{t-1}\frac{\alpha}{ \sqrt{V_{t-1}}})$

然后用下一个点的梯度方向，与历史累积动量相结合，计算步骤2中当前时刻的累积动量。

待优化参数: $w$
目标函数: $f(x)$
初始学习率: $\alpha$
而后，开始进行迭代优化。

For epoch t：

计算目标函数关于当前参数的梯度：
$g t = \nabla f (w t - m t - 1 α V t - 1 ‾ ‾ ‾ ‾ \sqrt)$ $g_t=\nabla f(w_t- m_{t-1}\frac{\alpha}{ \sqrt{V_{t-1}}})$
根据历史梯度计算一阶动量，二阶动量：
$m t = ϕ (g 1, g 2, \dots, g t), （可取 S G D 或 M o m e n t u m 等）$ $m_t = \phi(g_1, g_2, \cdots, g_t) ,（可取SGD或Momentum等）$
$V t = ψ (g 1, g 2, \dots, g t), (可取 A d a G r a d 等)$ $V_t = \psi(g_1, g_2, \cdots, g_t) , (可取AdaGrad等)$
计算当前时刻的下降梯度：
$η t = m t α V t ‾ ‾ \sqrt$ $\eta_t = m_t\frac{\alpha}{\sqrt{V_t}}$
根据下降梯度进行更新：
$w t + 1 = w t - η t$ $w_{t+1} = w_t - \eta_t$

AdaDelta / RMSProp

由于AdaGrad单调递减的学习率变化过于激进，我们考虑一个改变二阶动量计算方法的策略：不累积全部历史梯度，而只关注过去一段时间窗口的下降梯度。这也就是AdaDelta名称中Delta的来历。

修改的思路很简单。前面我们讲到，指数移动平均值大约就是过去一段时间的平均值，因此我们用这一方法来计算二阶累积动量：

V t = β 2 \cdot V t - 1 + (1 - β 2) \cdot g 2 t

$V_t = \beta_2 \cdot V_{t-1} + (1-\beta_2) \cdot g_t^2$

这就避免了二阶动量持续累积、导致训练过程提前结束的问题了。

待优化参数: $w$
目标函数: $f(x)$
初始学习率: $\alpha$ ， $\beta_2$
而后，开始进行迭代优化。

For epoch t：

计算目标函数关于当前参数的梯度：
$g t = \nabla f (w t)$ $g_t=\nabla f(w_t)$
根据历史梯度计算一阶动量，二阶动量：
$m t = ϕ (g 1, g 2, \dots, g t), （可取 S G D 或 M o m e n t u m 等）$ $m_t = \phi(g_1, g_2, \cdots, g_t) ,（可取SGD或Momentum等）$
$V t = β 2 \cdot V t - 1 + (1 - β 2) \cdot g 2 t$ $V_t = \beta_2 \cdot V_{t-1} + (1-\beta_2) \cdot g_t^2$
计算当前时刻的下降梯度：
$η t = m t α V t ‾ ‾ \sqrt$ $\eta_t = m_t\frac{\alpha}{\sqrt{V_t}}$
根据下降梯度进行更新：
$w t + 1 = w t - η t$ $w_{t+1} = w_t - \eta_t$

Adam

谈到这里，Adam和Nadam的出现就很自然而然了——它们是前述方法的集大成者。我们看到，SGD-M在SGD基础上增加了一阶动量，AdaGrad和AdaDelta在SGD基础上增加了二阶动量。把一阶动量和二阶动量都用起来，就是Adam了——Adaptive + Momentum。
SGD的一阶动量：

m t = β 1 \cdot m t - 1 + (1 - β 1) \cdot g t

$m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1)\cdot g_t$

加上AdaDelta的二阶动量：

V t = β 2 \cdot V t - 1 + (1 - β 2) \cdot g 2 t

$V_t = \beta_2 \cdot V_{t-1} + (1-\beta_2)\cdot g_t^2$

优化算法里最常见的两个超参数 $\beta_1$ ， $\beta_2$ 就都在这里了，前者控制一阶动量，后者控制二阶动量。

待优化参数: $w$
目标函数: $f(x)$
初始学习率: $\alpha$ ， $\beta_1$ ， $\beta_2$
而后，开始进行迭代优化。

For epoch t：

计算目标函数关于当前参数的梯度：
$g t = \nabla f (w t)$ $g_t=\nabla f(w_t)$
根据历史梯度计算一阶动量，二阶动量：
$m t = β 1 \cdot m t - 1 + (1 - β 1) \cdot g t$ $m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1)\cdot g_t$
$V t = β 2 \cdot V t - 1 + (1 - β 2) \cdot g 2 t$ $V_t = \beta_2 \cdot V_{t-1} + (1-\beta_2) \cdot g_t^2$
计算当前时刻的下降梯度：
$η t = m t α V t ‾ ‾ \sqrt$ $\eta_t = m_t\frac{\alpha}{\sqrt{V_t}}$
根据下降梯度进行更新：
$w t + 1 = w t - η t$ $w_{t+1} = w_t - \eta_t$

Nadam

最后是Nadam。我们说Adam是集大成者，但它居然遗漏了Nesterov，这还能忍？必须给它加上，按照NAG的步骤1：

g t = \nabla f (w t - α \cdot m t - 1 / V t ‾ ‾ \sqrt)

$g_t=\nabla f(w_t-\alpha \cdot m_{t-1} / \sqrt{V_t})$

这就是Nesterov + Adam = Nadam了。

待优化参数: $w$
目标函数: $f(x)$
初始学习率: $\alpha$ ， $\beta_1$ ， $\beta_2$
而后，开始进行迭代优化。

For epoch t：

计算目标函数关于当前参数的梯度：
$g t = \nabla f (w t - α \cdot m t - 1 / V t ‾ ‾ \sqrt)$ $g_t=\nabla f(w_t-\alpha \cdot m_{t-1} / \sqrt{V_t})$
根据历史梯度计算一阶动量，二阶动量：
$m t = β 1 \cdot m t - 1 + (1 - β 1) \cdot g t$ $m_t = \beta_1 \cdot m_{t-1} + (1-\beta_1)\cdot g_t$
$V t = β 2 \cdot V t - 1 + (1 - β 2) \cdot g 2 t$ $V_t = \beta_2 \cdot V_{t-1} + (1-\beta_2) \cdot g_t^2$
计算当前时刻的下降梯度：
$η t = m t α V t ‾ ‾ \sqrt$ $\eta_t = m_t\frac{\alpha}{\sqrt{V_t}}$
根据下降梯度进行更新：
$w t + 1 = w t - η t$ $w_{t+1} = w_t - \eta_t$

Horcham

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
优化算法

优化算法转自：https://zhuanlan.zhihu.com/p/32230623主要框架待优化参数: www 目标函数: f(x)f(x)f(x) 初始学习率: αα\alpha 而后，开始进行迭代优化。在每个epoch t：计算目标函数关于当前参数的梯度： gt=∇f(wt)gt=∇f(w...
复制链接

扫一扫