每天3分钟，彻底弄懂神经网络的优化器（六）AdaGrad

真-忒修斯之船

于 2024-10-08 08:05:08 发布

阅读量407

点赞数 8

分类专栏： LLMForEverybody 文章标签：神经网络人工智能深度学习优化器 Optimizer

本文链接：https://blog.csdn.net/qq_25295605/article/details/142750283

版权

LLMForEverybody 专栏收录该内容

43 篇文章 0 订阅

订阅专栏

1. AdaGrad算法的提出

AdaGrad（Adaptive Gradient Algorithm）是由 John Duchi, Elad Hazan, 和 Yoram Singer 提出的。这个算法在2011年的论文《Adaptive Subgradient Methods for Online Learning and Stochastic Optimization》1 中被详细描述，并发表在了《Journal of Machine Learning Research》上。AdaGrad算法的主要特点是为每个参数独立地调整学习率，使得不频繁更新的参数可以获得更大的学习率，而频繁更新的参数则获得较小的学习率。这种自适应调整学习率的方法特别适合处理稀疏数据，因为它能够对稀疏特征给予更多的关注。然而，AdaGrad也有其缺点，主要是在学习过程中累积的平方梯度和会导致学习率变得过小，从而在训练后期几乎停止学习。为了解决这个问题，后续研究者提出了AdaGrad的变种，如AdaDelta和Adam等。

2. AdaGrad算法的原理

初始化：为每个参数 $\theta_i$ 初始化梯度平方和 $\sum g_i^2 = 0$ 。
梯度计算：在每次迭代中，计算参数 $\theta_i$ 的梯度 $g_i$ 。
更新梯度平方和：
$\sum g_i^2 = \sum g_i^2 + g_i^2$
计算自适应学习率：
$\eta_i = \frac{\eta}{\sqrt{\sum g_i^2} + \epsilon}$
其中 $\eta$ 是全局学习率，$ \epsilon $ 是一个很小的数（如 $1 e - 8$ ），用于防止分母为零。
参数更新：
$\theta_i = \theta_i - \eta_i \cdot g_i$