AdaGrad优化器（理论、公式、代码实现）

m0_48923489

已于 2024-03-19 20:33:41 修改

阅读量3.5k

点赞数 29

文章标签：人工智能 python 深度学习 pytorch

于 2024-03-19 20:32:47 首次发布

本文链接：https://blog.csdn.net/m0_48923489/article/details/136854257

版权

AdaGrad是一种自适应学习率的梯度下降算法，通过历史梯度的平方和调整参数学习率。它在稀疏数据中表现出色，但存在学习率衰减和内存开销问题。后续的RMSProp和Adam等算法对此进行了优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AdaGrad（Adaptive Gradient Algorithm）是一种自适应学习率的梯度下降算法，于2011年由Duchi等人提出。这个算法主要是为了解决标准的梯度下降算法中学习率一成不变的问题。在标准的梯度下降算法中，如果学习率过大，可能会导致算法在最小值附近震荡而不收敛；如果学习率过小，又会导致收敛速度过慢。AdaGrad算法通过自适应调整每个参数的学习率，尝试解决这个问题。

理论

AdaGrad算法的核心思想是对每个参数根据其历史梯度的平方和进行自适应地调整学习率。这意味着对于出现频率高的特征，其学习率会较低；而对于出现频率低的特征，其学习率会较高。这种方式使得模型在稀疏数据上的表现更好。

AdaGrad的参数更新公式如下：

while 条件:
- $\nabla_{\theta_{k-1}} L(\theta)$
- $r_{k} = r_{k-1} + g \odot g$
- $\eta = \frac{\eta}{\sqrt{r_{k} + \epsilon}}$
- $\theta_{k} = \theta - \eta g$

符号解释：

$\nabla_{\theta_{k-1}} L(\theta)$ : $g$ 代表损失函数 $L(\theta)$ 关于参数 $\theta$ 在 $\theta_{k-1}$ 点的梯度，其中 $\nabla_{\theta}$ 表示梯度运算符， $\theta_{k-1}$ 表示上一步的参数值。
$r_{k} = r_{k-1} + g \odot g$ : $r_{k}$ 代表到当前迭代为止所有梯度平方的累积和， $\odot$ 表示元素乘法（即Hadamard乘积）。这里 $r_{k}$ 用于调整学习率，以适应不同参数的不同梯度值。
$\eta = \frac{\eta}{\sqrt{r_{k} + \epsilon}}$ : 这里通过累积梯度平方和 $r_{k}$ 来调整学习率 $\eta$ 。 $\epsilon$ 是一个很小的常数，用于防止分母为零。这样的调整使得学习率对于出现频繁的特征会更小，而对于稀疏特征会更大，有助于提高模型在稀疏数据上的性能。
$\theta_{k} = \theta - \eta g$ : 这是参数更新的步骤，新的参数 $\theta_{k}$ 通过从当前参数 $\theta$ 减去学习率 $\eta$ 乘以梯度 $g 来计算。这一步是基于梯度下降算法的，目的是减少损失函数 $ L(\theta) $ 的值。

代码示例

一个简单的AdaGrad算法的Python代码示例如下：

import numpy as np

# AdaGrad optimizer function
def adagrad_optimizer(grad, params, sqr_grads, learning_rate=0.01, epsilon=1e-8):
    sqr_grads += grad ** 2
    adjusted_grad = grad / (np.sqrt(sqr_grads) + epsilon)
    params -= learning_rate * adjusted_grad

# Example usage
params = np.array([1.0, 2.0])  # Initial parameters
grads = np.array([0.2, -0.3])  # Example gradients
sqr_grads = np.zeros_like(params)  # Initialize square gradients sum

adagrad_optimizer(grads, params, sqr_grads)
print(params)  # Updated parameters