每天3分钟，彻底弄懂神经网络的优化器（四）ASGD

最新推荐文章于 2024-09-30 13:49:56 发布

真-忒修斯之船

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量1.6k

点赞数 47

文章标签：神经网络人工智能深度学习 optimizer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25295605/article/details/142626163

版权

1. ASGD算法的提出

平均随机梯度下降（Average Stochastic Gradient Descent，ASGD）是一种用于优化可微分目标函数的迭代方法，它是梯度下降优化的随机近似。ASGD的提出可以追溯到1992年，由B.T.Polyak在他的论文《Acceleration of Stochastic Approximation by Averaging》1中首次描述了这一方法。ASGD通过对多个随机梯度的平均值进行更新，来减少随机梯度的方差，从而提高优化算法的收敛速度。这种方法在训练深度神经网络时，可以帮助算法更快地收敛到最优解。

请添加图片描述

2. ASGD算法的原理

不同于上一篇聊到的momentum对梯度进行指数加权平均，ASGD是对多个随机梯度进行平均。ASGD的更新公式如下：

初始化参数 $\theta_0$ 和学习率 $\eta$ ;
对于每次迭代 $t$ ，计算梯度 $g_t$ ;
更新参数 $\theta$ ：
$\theta_{t+1} = \theta_t - \eta \cdot \frac{1}{t+1} \sum_{i=1}^{t} g_i$
其中 $g_i$ 是第 $i$ 次迭代的梯度。

这个更新公式中， $\sum_{i=1}^{t} g_i$ 是从第一次迭代到当前迭代所有梯度的累加和，然后除以 $t + 1$ 来计算平均值。随着迭代次数的增加，学习率 $\eta $ 乘以的系数 $\frac{1}{t+1}$ 会逐渐减小，这使得更新步长逐渐变小，有助于算法在接近最优解时更加稳定。

ASGD的一个关键特性是它会在训练过程中累积所有梯度的和，并用这个累积和来更新参数，这有助于减少随机梯度下降中的噪声，并且随着时间的推移，参数更新会逐渐趋向于零，使得算法能够稳定在最优解附近。此外，ASGD通常还会在训练结束后使用所有迭代中参数的平均值作为最终模型参数，这进一步提高了模型的泛化能力。

3. ASGD和Momentum的区别

ASGD和Momentum都是用于优化神经网络的优化算法，它们之间的主要区别在于参数更新的方式。它们都旨在改进基本的随机梯度下降（SGD）算法，但它们在实现上有所不同：

Momentum:
- Momentum算法通过将之前梯度的指数加权平均值（动量项）与当前梯度相结合来更新参数，这有助于加速梯度下降过程中的收敛，并减少梯度在高曲率区域的振荡。
ASGD:
- ASGD算法通过计算所有历史梯度的简单平均值来更新参数，而不是像Momentum那样使用指数加权平均。
- ASGD的一个关键特点是它在每次迭代中都使用相同的学习率，并且随着时间推移，学习率会自然减小，因为分母 ( t ) 随着迭代次数的增加而增加。

主要区别:

动量项的计算方式：Momentum使用指数加权平均来计算动量，而ASGD使用简单算术平均；
学习率的调整：在Momentum中，学习率是固定的，或者可以随着时间进行调整；而在ASGD中，学习率随着迭代次数的增加而自然减小；
收敛行为：Momentum通常在高曲率区域提供更好的加速效果，而ASGD则通过平均历史梯度来平滑梯度更新，减少噪声的影响。

请添加图片描述

参考

[1] Acceleration of stochastic approximation by averaging

欢迎关注我的GitHub和微信公众号，来不及解释了，快上船！

GitHub: LLMForEverybody

仓库上有原始的Markdown文件，完全开源，欢迎大家Star和Fork！

请添加图片描述

真-忒修斯之船

关注

47
点赞
踩
43

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。