AdaGrad深入学习笔记

最新推荐文章于 2025-03-05 14:03:38 发布

饕子

最新推荐文章于 2025-03-05 14:03:38 发布

阅读量426

点赞数

分类专栏：机器学习文章标签：学习笔记机器学习

本文链接：https://blog.csdn.net/m0_72410588/article/details/130725824

版权

机器学习专栏收录该内容

85 篇文章

订阅专栏

AdaGrad是一种自适应学习率的优化算法，用于解决梯度下降中学习率的问题。它通过累积梯度平方和动态调整每个权重的学习率，以实现更快的收敛。在实际应用中，可以通过调整学习率和超参数ε来优化模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AdaGrad深入学习笔记

前言

AdaGrad是一种优化算法，常用于深度学习中的模型训练。它可以通过自适应地调整梯度的学习率，来实现更快速、更准确的收敛。本篇笔记将介绍AdaGrad的原理和实现，以及如何在实际使用中进行调参。

什么是梯度下降？

在介绍AdaGrad之前，我们先来回顾一下常用的优化算法——梯度下降（Gradient Descent）。

梯度下降是最基础的优化算法之一，用于寻找一个函数的最小值。它通过不断地迭代，在每一步都将自变量朝着梯度方向移动，直到达到最小值。

以下是梯度下降的核心公式：

$\theta = \theta - \alpha \cdot \nabla J(\theta)$

其中， $\theta$ 表示当前的自变量（如权重）， $J(\theta)$ 表示当前的损失函数， $\nabla J(\theta)$ 表示损失函数关于自变量的梯度， $\alpha$ 表示当前的学习率。

可以看出，梯度下降的核心思想是不断地迭代自变量，以期望使损失函数最小化。

但是，在实际应用中，梯度下降也存在一些问题。例如，如果学习率过大，可能会导致收敛过程发生震荡，而如果学习率过小，则需要更多的迭代次数才能收敛。针对这些问题，我们可以使用AdaGrad来调整学习率。

AdaGrad算法

算法原理

AdaGrad的核心思想是自适应地调整每个权重的学习率，使得每个权重都可以得到合适的更新。它的具体实现方法是通过调整学习率的大小，来缓解梯度下降中长期依赖问题。

以下是AdaGrad的核心公式：

$\theta_{t+1,i} = \theta_{t,i} - \frac{\eta}{\sqrt{G_{t,ii} + \epsilon}} g_{t,i}$

其中， $\theta_{t,i}$ 表示时刻 $t$ 时第 $i$ 个权重的值， $g_{t,i}$ 表示时刻 $t$ 时第 $i$ 个权重的梯度， $G_{t,ii}$ 表示前 $t$ 个时刻内第 $i$ 个权重所有梯度平方和的累加值， $\eta$ 表示学习率， $\epsilon$ 是一个很小的常数，用于避免分母为0的情况。

从公式中可以看出，AdaGrad的学习率是一个根据历史梯度值动态调整的函数，如果一个权重的历史梯度值比较大，那么它在更新时所使用的学习率就会相应减小，从而达到自适应调整学习率的目的。

算法实现

以下是一种常见的AdaGrad算法实现方式：

learning_rate = 0.01
epsilon = 1e-8
G = 0

for i in range(num_iterations):
  gradients = compute_gradients(loss)
  G += gradients ** 2
  theta -= learning_rate * gradients / (np.sqrt(G) + epsilon)