优化器简介

最新推荐文章于 2024-01-08 09:58:32 发布

Potato_Shy

最新推荐文章于 2024-01-08 09:58:32 发布

阅读量172

点赞数

分类专栏：机器学习基础深度学习基础文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/weixin_41147610/article/details/120115733

版权

机器学习基础同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

深度学习基础

5 篇文章 0 订阅

订阅专栏

1、SGD

随机梯度下降。

随机的意思是随机选取一个batch进行梯度更新

1.1、更新过程

学习率 $\epsilon_k$
梯度估计
$\begin{aligned} \hat{g}& = \frac{1}{m} \nabla_{\theta}\sum_iL(f(x^{(i)};\theta), y) \\ &=\frac{1}{m}\frac{\partial{L}}{\partial{\theta}} \end{aligned}$
梯度更新
$g_t = g_{t-1} - \epsilon_k\hat{g}$

1.2、优化

保证SGD收敛的一个充分条件是：（这里还不会证明）
$\begin{aligned} &\sum_{k=1}^{\infty}\epsilon_k = \infty\\ &\sum_{k=1}^{\infty}\epsilon_k^2 = 0 \end{aligned}$

实践中，一般会采用线性衰减学习率，知道第 $\tau$ 次迭代。
$\epsilon_k = (1-\alpha)\epsilon_0 + \alpha\epsilon_{\tau}$
其中， $\tau=\frac{k}{\tau}$ ,在第τ步迭代后，一般使 $\epsilon$ 保持常数。 $\epsilon_{\tau}$ 一般设为 $\epsilon_0$ 的1%
研究优化算法的收敛率，一般会衡量额外误差：（这里还不理解）
$J(\theta)-min_{\theta}J(\theta)$
SGD应用于凸问题时，k步迭代后的额外误差量级是 $O(\frac{1}{\sqrt{k}})$ ,强凸情况下是 $O(\frac{1}{k})$ 。

ps：强凸问题。 $f(x)-\frac{m}{2}||x||^2$ 是一个凸函数，也就是说，f(x)是凸性度量为m的强凸函数。

2、动量

动量法旨在加速学习,特别是处理高曲率、小但一致的梯度或是带噪声的梯度。

动量法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动

2.1、动量法更新

超参数 $\alpha$ 决定了之前梯度的贡献，衰减得有多快。更新规则如下：
$\begin{aligned} & v = \alpha v-\epsilon\nabla_{\theta}(\frac{1}{m}\sum^m_{i=1}L(f(x^{(i)};\theta)),y^{(i)})\\ & \theta=\theta+v \end{aligned}$

2.2、动量法的步长

不使用动量法时，步长是梯度范数乘以学习率( $\epsilon \frac{1}{m}\frac{\partial L}{\partial \theta}$ )，引入动量后，步长取决于梯度序列的大小和排列。当许多连续的梯度指向相同方向时，步长最大。如果动量算法总是观测到梯度g，那么他会在方向-g上不停加速，直到达到最终速度，其中步长大小为：
$\begin{aligned} &\frac{\epsilon ||g||}{1-\alpha} \\ \end{aligned}$
上式证明：
$\begin{aligned} v &= \alpha v -\epsilon g \\ &=\alpha ^n v_0 - \alpha ^{n-1}\epsilon g - \alpha ^{n-2}\epsilon g - ...- \alpha \epsilon g - \epsilon g \end{aligned}$
利用等比数列求和：
$\alpha ^n v_0 - \frac{(\alpha ^ n - 1)\epsilon g}{\alpha - 1}$
因为 $\alpha ^ n \rarr \infty$ ，所以 $v\rarr \frac{\epsilon g}{\alpha-1}$ ，步长为v的绝对值，为 $\frac{\epsilon ||g||}{1-\alpha}$

因此，将动量的超参数视为 $\frac{1}{1-\alpha}$ 有助于理解，α=0.9对应着最大速度10倍于梯度下降算法。
实践中，阿尔法一般取值为0.5，0.9，0.99，和学习率一样，α也会随着时间不短调整，一般初始值是一个比较小的值，随后慢慢变大。

2.3、Nesterov动量

Nesterov动量法在标准动量方法中增加了一个校正因子，来增加收敛速度。
计算方法：
$\begin{aligned} \tilde \theta &=\theta + \alpha v\\ g &= \frac{1}{m}\nabla_{\theta}\sum_iL(f(x^{(i)},\tilde \theta), y^{(i)})\\ v & = \alpha v - \epsilon g\\ \theta & = \theta + v \end{aligned}$

3、学习率自适应

对每个参数设置不同的学习率，在整个学习过程中，自动适应这些学习率是有道理的。

3.1、AdaGrad

算法缩放每个参数反比于其所有梯度历史平方指总和的平方根，效果是损失大的参数，有一个大的学习率，损失小的参数有一个小的学习率。净效果是在更为平缓的倾斜方向会取得较大的进步(较大进步的意思是，在平缓的倾斜方向上，学习率减小，以使模行可以得到最优解)。

缺点：梯度平方和的累积，导致步长减少过快，可能提前结束学习。

设置小常数 $\delta$ ，为了数值稳定，大约设为 $10^{-7}$
初始化梯度累计变量 $r = 0$
更新参数如下：

$\begin{aligned} g& = \frac{1}{m} \nabla_{\theta}\sum_iL(f(x^{(i)};\theta), y) \\ r&=r+g\odot g\\ \Delta \theta&=-\frac{\epsilon}{\delta+\sqrt r}\odot g \\ \theta &=\theta + \Delta \theta \end{aligned}$

3.2、RMSProp

针对AdaGrad的梯度勒紧问题，RMSProp引入指数衰减平均以丢弃遥远过去的历史。

设置衰减速率 $\rho$
设置小常数 $\delta$ ，通常设置为 $10^{-6}$
初始化累积变量 $r = 0$
更新过程如下：
$\begin{aligned} g& = \frac{1}{m} \nabla_{\theta}\sum_iL(f(x^{(i)};\theta), y) \\ r& = \rho r + (1-\rho)g\odot g \\ \Delta \theta & = -\frac{\epsilon}{\sqrt {r+\delta}}\odot g \\ \theta & = \theta + \Delta \theta \end{aligned}$
采用Nesterov动量的RMSProp算法
设置衰减速率 $\rho$ ，动量系数 $\alpha$
更新过程如下：
$\begin{aligned} \hat \theta & = \theta +\alpha v \\ g & = \frac{1}{m} \nabla_{\theta}\sum_iL(f(x^{(i)};\hat \theta), y) \\ r & = \rho r + (1-\rho)g \odot g \\ v & = \alpha v - \frac{\epsilon}{\sqrt r}\odot g \\ \theta & = \theta +v \end{aligned}$

3.3、Adam

Adam的实现在RMSProp的基础上，增加了一阶矩估计，并修正偏差。

设定指数衰减速率， $\rho_1,\rho_2 \in[0, 1)$ ，建议默认为0.9和0.999
用于数值稳定的小常数 $\delta$ ，建议默认为 $10^{-8}$
初始化一阶和二阶矩变量s=0，r=0
更新过程如下：
$\begin{aligned} g& = \frac{1}{m} \nabla_{\theta}\sum_iL(f(x^{(i)};\theta), y) \\ s &=\rho_1 s +(1-\rho_1)g\\ r& = \rho_2 r + (1-\rho_2)g\odot g \\ \hat s & = \frac{s}{1-\rho_1^t} \\ \hat r & = \frac{r}{1-\rho_2^t}\\ \Delta \theta & = -\frac{\epsilon \hat s}{\sqrt {\hat r}+\delta} \\ \theta & = \theta + \Delta \theta \end{aligned}$

Potato_Shy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
优化器简介

1、SGD随机梯度下降。随机的意思是随机选取一个batch进行梯度更新1.1、更新过程学习率ϵk\epsilon_kϵk梯度估计g^=1m∇θ∑iL(f(x(i);θ),y)=1m∂L∂θ\begin{aligned}\hat{g}& = \frac{1}{m} \nabla_{\theta}\sum_iL(f(x^{(i)};\theta), y) \\&=\frac{1}{m}\frac{\partial{L}}{\partial{\theta}}\end{a
复制链接

扫一扫

专栏目录