深度学习优化算法

最新推荐文章于 2024-07-22 11:48:26 发布

做技术不可耻

最新推荐文章于 2024-07-22 11:48:26 发布

阅读量113

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_40019838/article/details/117749770

版权

深度学习优化算法

梯度下降想必没有人不知道，深度学习的优化算法都是基于梯度下降，这里对一些算法做一个总结。

Momentum

又称动量法，将目标函数梯度的指数加权平均作为更新的方向。
$\boldsymbol{v}_t = \gamma \boldsymbol{v}_{t-1}+\eta_t\boldsymbol{g}_t\\ \boldsymbol{x}_t = \boldsymbol{x}_{t-1}-\boldsymbol{v}_t$
$\gamma$ 为超参数，满足 $0\le \gamma \lt 1$ ； $\boldsymbol{v}_t$ 为动量变量，在时间步0初始化为 $\boldsymbol{0}$ ； $\boldsymbol{g}_t$ 目标函数为在时间步 $t$ 的小批量梯度； $\eta_t$ 为时间步 $t$ 的学习率。

动量法近似于将最近 $\frac{1}{1-\gamma}$ 个时间步的普通更新量做了指数加权平均。因此，自变量在各个方向上的移动幅度不仅取决于当前梯度，还取决于过去的各个梯度在各个方向上是否一致，避免自变量更新幅度过大导致越过最优解。

AdaGrad

AdaGrad算法使用一个小批量梯度 $\boldsymbol{g}_t$ 按元素平方的累加变量 $\boldsymbol{s}_t$ 。在时间步0，将 $\boldsymbol{s}_0$ 初始化为 $\boldsymbol{0}$ ，在时间步 $t$ ，令
$\boldsymbol{s}_t=\boldsymbol{s}_{t-1}+\boldsymbol{g}_t\odot\boldsymbol{g}_t\\ \boldsymbol{x}_t = \boldsymbol{x}_{t-1}-\frac{\eta}{\sqrt{\boldsymbol{s}_t+\epsilon}}\odot\boldsymbol{g}_t$
$\epsilon$ 是一个极小的常数，用于维持数值稳定性，如 $10^{-6}$ 。

很显然，AdaGrad算法能够避免梯度过大。若某元素的偏导数一直较大，那么该元素的学习率下降较快；反之该元素的学习率下降较慢。

由于 $\boldsymbol{s}_t$ 一直在增大，那么学习率就一直降低。所以，当学习率在迭代早期降得过快且当前解依然不佳时，AdaGrad算法在迭代后期由于学习率过小，可能较难找到一个有用的解。

RMSProp

AdaGrad算法的缺点十分明显，因此，RMSProp对AdaGrad算法做了一点修改。不同于AdaGrad算法中的 $\boldsymbol{s}_t$ 是所有小批量梯度 $\boldsymbol{g}_t$ 的平方和，RMSProp算法将梯度的平方做指数加权移动平均。也就是说
$\boldsymbol{s}_t=\gamma\boldsymbol{s}_{t-1}+(1-\gamma)\boldsymbol{g}_t\odot\boldsymbol{g}_t\\ \boldsymbol{x}_t = \boldsymbol{x}_{t-1}-\frac{\eta}{\sqrt{\boldsymbol{s}_t+\epsilon}}\odot\boldsymbol{g}_t$
RMSProp的状态变量 $\boldsymbol{s}_t$ 可以看作是最近 $\frac{1}{1-\gamma}$ 个时间步的小批量梯度的平方的加权平均，这样学习率就不会一直降低。

AdaDelta

AdaDelta算法也是针对AdaGrad算法的缺点做了改进，与RMSProp算法一样，AdaDelta算法的状态变量 $\boldsymbol{s}_t$ 的计算方式为
$\boldsymbol{s}_t=\rho\boldsymbol{s}_{t-1}+(1-\rho)\boldsymbol{g}_t\odot\boldsymbol{g}_t$
$\le \rho \lt 1$ 。

AdaDelta算法还维护了额外的状态变量 $\Delta\boldsymbol{x}_t$ ，在时间步0初始化为 $\boldsymbol{0}$ ，使用 $\Delta\boldsymbol{x}_{t-1}$ 来计算自变量的变化量
$\boldsymbol{g}'_t=\sqrt{\frac{\Delta\boldsymbol{x}_{t-1}+\epsilon}{\boldsymbol{s}_t+\epsilon}}\odot\boldsymbol{g}_t$
之后更新自变量
$\boldsymbol{x}_t = \boldsymbol{x}_{t-1}-\boldsymbol{g}'_t$
最后，使用 $\Delta\boldsymbol{x}_t$ 来记录自变量变化量 $\boldsymbol{g}'_t$ 按元素平方的指数加权移动平均
$\Delta\boldsymbol{x}_t=\rho\Delta\boldsymbol{x}_{t-1}+(1-\rho)\boldsymbol{g}'_t\odot\boldsymbol{g}'_t$
可以看到，AdaDelta没有学习率参数，而是使用 $\sqrt{\Delta\boldsymbol{x}_{t-1}}$ 来代替学习率。

Adam

Adam算法在RMSProp算法的基础上对小批量梯度也做了指数加权移动平均，可以看成RMSProp和Momentum的结合

Adam算法使用了动量变量 $\boldsymbol{v}_t$ 和RMSProp算法中的状态变量 $\boldsymbol{s}_t$ ，在时间步0均初始化为 $\boldsymbol{0}$ 。给定超参数 $\beta_1$ （作者推荐设为0.9）和 $\beta_2$ （作者推荐设为0.999），两者的计算方式为
$\boldsymbol{v}_t = \beta_1\boldsymbol{v}_{t-1}+(1-\beta_1)\boldsymbol{g}_t\\ \boldsymbol{s}_t=\beta_2\boldsymbol{s}_{t-1}+(1-\beta_2)\boldsymbol{g}_t\odot\boldsymbol{g}_t$
由于 $\boldsymbol{s}_0$ 和 $\boldsymbol{v}_0$ 均为 $\boldsymbol{0}$ ，在时间步 $t$ 有 $\boldsymbol{v}_t=(1-\beta_1)\sum_{i=1}^t\beta_1^{t-i}\boldsymbol{g}_i$ ，各个小批量梯度的权值累加起来为 $(1-\beta_1)\sum_{i=1}^t\beta_1^{t-i}=1-\beta_1^t$ 。当 $t$ 较小时，过去各个小批量t梯度的权值之和会比较小，如当 $\beta_1=0.9$ $\boldsymbol{v}_1=0.1\boldsymbol{g}_1$ ，为了消除这个影响，对于任意时间步 $t$ ，将 $\boldsymbol{v}_t$ 除以 $1-\beta_1^t$ ，从而使过去各个时间步小批量梯度的权值之和为1，这也叫偏差修正
$\hat{\boldsymbol{v}}_t=\frac{\boldsymbol{v}_t}{1-\beta_1^t}\\ \hat{\boldsymbol{s}}_t=\frac{\boldsymbol{s}_t}{1-\beta_2^t}\\$
之后，使用修正后的变量 $\hat{\boldsymbol{v}}_t$ 和 $\hat{\boldsymbol{s}}_t$ ，计算自变量变化量
$\boldsymbol{g}'_t=\frac{\eta\hat{\boldsymbol{v}}_t}{\sqrt{\hat{\boldsymbol{s}}_t}+\epsilon}$
$\eta$ 是学习率，最后使用 $\boldsymbol{g}'_t$ 更新自变量
$\boldsymbol{x}_t = \boldsymbol{x}_{t-1}-\boldsymbol{g}'_t$
显然，还可以将Adam算法和AdaDelta算法结合，使用 $\sqrt{\Delta\boldsymbol{x}_{t-1}}$ 来代替学习率。

总结

Momentum对梯度做了指数加权平均，防止更新幅度过大越过最优解。

AdaGrad对梯度的平方求和，防止更新幅度过大，但学习率会一直降低。

RMSProp对AdaGrad做了改进，对梯度的平方做指数加权移动平均，学习率不会一直降低。

AdaDelta也是对AdaGrad的改进，对自变量的变化量平方的指数加权平均开根号，代替学习率。

Adam可以看作是Momentum和RMSProp的结合，即对梯度做了加权平均，也用梯度平方的加权平均来防止更新幅度过大。

总的来说，Momentum对更新方向做修正，AdaGrad、RMSProp和AdaDelta对学习率做修正，Adam对更新方向和学习率都做了修正。

做技术不可耻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化算法

深度学习优化算法梯度下降想必没有人不知道，深度学习的优化算法都是基于梯度下降，这里对一些算法做一个总结。Momentum又称动量法，将目标函数梯度的指数加权平均作为更新的方向。vt=γvt−1+ηtgtxt=xt−1−vt\boldsymbol{v}_t = \gamma \boldsymbol{v}_{t-1}+\eta_t\boldsymbol{g}_t\\\boldsymbol{x}_t = \boldsymbol{x}_{t-1}-\boldsymbol{v}_tvt=γvt−1+
复制链接

扫一扫