最全深度学习优化器详解_优化器一阶动量-CSDN博客

本文链接：https://blog.csdn.net/weixin_37817275/article/details/117264932

本文详细介绍了深度学习中常用的优化算法，包括批量梯度下降(BGD)、小批量梯度下降(MBGD)、随机梯度下降(SGD)以及一阶动量的Momentum和NAG方法。接着，文章讨论了自适应学习率的Adagrad、RMSProp算法，并最终引出了结合一阶和二阶动量的Adam优化器，它是现代深度学习中的主流选择。这些优化器通过不同的方式调整学习率，以提高模型训练的效率和准确性。

摘要由CSDN通过智能技术生成

优化器

BGD

每次用整个批次的数据来计算梯度：
$\theta = \theta -\eta \triangledown_\theta L$

for i in range(nb_epochs):
	params_grad = evaluate_gradient(loss_function, data, params)
	params = params - learning_rate * params_grad

MBGD

MBGD 每一次利用一小批样本，即 n 个样本进行计算梯度更新值：
$\theta = \theta -\eta \triangledown_\theta L(f(x^{(i:i+n)}),(y^{(i:i+n)}))$

for i in range(epochs):
	np.random.shuffle(data)
    for batch in get_batches(data, batch_size=50):
        params_grad = evaluate_gradient(loss_function, batch, params)
        params = params - learning_rate * params_grad

SGD

每次随机选择一个样本，对 $\theta$ 进行更新:
$\theta = \theta -\eta \triangledown_\theta L(f(x_i),y_i)$

for i in range(nb_epochs):
    np.random.shuffle(data)
    for example in data:
        params_grad = evaluate_gradient(loss_function, example, params)
        params = params - learning_rate * params_grad

从下面的优化器开始需要用到一阶动量和二阶动量的指数加权平均：
一阶动量的指数加权平均记为 $m_t$
二阶动量的指数加权平均记为 $v_t$

Momentum

让梯度在下降速度快的地方速度更快，相当于加上惯性，实现方式是参数不仅要减去当前梯度，还要减去历史梯度更新方向的指数加权平均：
$g_t=\triangledown_\theta L\\ m_t=\gamma m_{t-1}+\eta g_t\\ \theta = \theta - m_t$

NAG(Nesterov Accelerated Gradient)

与Momentum相似，只不过是在未来的位置上计算梯度 $g_t$ ：
$g_t=\triangledown_\theta L(\theta-\gamma{m_{t-1}})\\ m_t=\gamma m_{t-1}+\eta g_t\\ \theta = \theta - m_t$
唯一的区别就是当前梯度是在减去了上一刻历史梯度的指数加权平均值之后进行计算的，这就是所谓的在未来位置上进行计算梯度。

上面的方法学习率不会根据训练的推进而改变

Adagrade

在参数空间更为平缓的方向，会取得更大的进步（因为平缓，所以历史梯度平方和较小，学习率下降的幅度较小，梯度更新的更快），并且能够使得陡峭的方向变得平缓，从而加快训练速度。
如图，假设两个参数w和b，明显梯度在b方向更陡峭，在w方向更平缓，绿色代码MBGD方法更新路线，该方法无论梯度平缓还是陡峭，学习率都不改变，红色代表Adagrade，梯度平缓时(w方向)，更新的更快，梯度陡峭时（b方向），更新更慢：

Adagrad根据二阶动量的指数加权平均的倒数对学习率进行更新，学习率会随着二阶动量的积累逐渐变小：
$g_t=\triangledown_\theta L\\ v_t=v_{t-1}+g_t\cdot g_t\\ \triangle\theta = -\frac{\eta}{\delta+\sqrt{v_t}}g_t\\ \theta_t = \theta_{t-1} + \triangle \theta$

RMSProp

Adagrad随着梯度平方和的累积，使得学习率急速下降，所以引入RMSProp，作为改进版，唯一的区别就是 $v_t$ 的计算：
$g_t=\triangledown_\theta L\\ v_t=\rho v_{t-1}+(1-\rho)g_t\cdot g_t\\ \triangle\theta = -\frac{\eta}{\delta+\sqrt{v_t}}g_t\\ \theta_t = \theta_{t-1} + \triangle \theta$
RMSProp算法不是像AdaGrad算法那样暴力直接的累加平方梯度，而是加了一个衰减系数 $\rho$ 来控制历史信息的获取多少：
$v_t=\rho v_{t-1}+(1-\rho)g_t\cdot g_t$

Adam

Adam是RMSProp和Momentum的结合：
首先计算一阶动量和二阶动量的指数加权平均值：
$g_t=\triangledown_\theta L\\ m_t=\eta(\beta_1 m_{t-1}+(1-\beta_1) g_t)\\ v_t=\eta(\beta_2 v_{t-1}+(1-\beta_2) g_t^2)$

注意到，在迭代初始阶段， $m_t$ 和 $v_t$ 有一个向初值的偏移（过多的偏向了 0）。因此，可以对一阶和二阶动量做偏置校正 (bias correction):
$\hat{m}_t=\frac{m_t}{1-\beta_1}$
$\hat{v}_t=\frac{v_t}{1-\beta_2}$
用校正后的值更新参数:
$\theta_t = \theta_{t-1} -\frac{1}{\delta+\sqrt{\hat{v}_t}}\hat{m}_t$