Adam (adaptive moment estimation)--自适应矩估计

最新推荐文章于 2025-03-06 21:53:10 发布

yyyybupt

最新推荐文章于 2025-03-06 21:53:10 发布

阅读量1.4w

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_41747565/article/details/86100697

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

Adam算法结合AdaGrad和RMSProp的优点，适用于高维参数空间的随机目标优化，特别适合于数据/参数规模大的问题，实现简单，计算效率高，存储需求低。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于低阶矩的自适应估计的Adam，是一种基于一阶梯度的随机目标函数优化算法

一、关键问题

高维参数空间随机目标的优化：

高阶优化方法往往不合适，本文讨论一阶方法

二、主要思路

1、算法及更新规则

（1）算法详述

注：

通过牺牲清晰度，可以提高算法的效率：

将伪代码的后三行改为：

$\alpha_t=\alpha\cdot\frac{\sqrt{1-\beta_2^t}}{(1-\beta_1^t)}$

$\theta_t\leftarrow\theta_{t-1}-\frac{\alpha_t\cdot m_t}{(\sqrt{v_t}+\widehat\varepsilon)}$

移动指数加权平均法

根据同一个移动段内不同时间的数据对预测值的影响程度，分别给予不同的权数，然后再进行平均移动以预测未来值
β等于历史值的加权率
如果把公式详细的展开，就会得到一个指数形式的公式：

$v_t=(1-\beta_2)\sum_{i=1}^t\beta_2^{t-i}\cdot g_i^2$

（2）更新规则

$\Delta_t=\alpha\cdot{\textstyle\frac{\widehat{m_t}}{\sqrt{\widehat{v_t}}}},\varepsilon=0$
$\left\{\begin{array}{lc}\left|\Delta_t\right|\leq\frac{\alpha\cdot(1-\beta_1)}{\sqrt{1-\beta_2},}&1-\beta_1>\sqrt{1-\beta_2}\\\left|\Delta_t\right|\leq\alpha,&otherwise\end{array}\right.$
每个时段在参数空间中采取的步骤的有效性受步长 $\alpha$ 限制：

$\left|\Delta\right|\underset\approx<\alpha$ ，可理解为当前参数的可信域

2、初始化偏差校正

$v_t=(1-\beta_2)\sum_{i=1}^t\beta_2^{t-i}\cdot g_i^2$

$\begin{array}{l}E\lbrack v_t\rbrack=E\lbrack(1-\beta_2){\textstyle\sum_{i=1}^t}\beta_2^{t-i}\cdot g_i^2\rbrack\\=E\lbrack g_t^2\rbrack(1-\beta_2){\textstyle\sum_{i=1}^t}\beta_2^{t-i}+\zeta\\=E\lbrack g_t^2\rbrack(1-\beta_2)+\zeta\end{array}$