Adam优化算法

最新推荐文章于 2024-03-10 17:42:50 发布

爱编程真是太好了

最新推荐文章于 2024-03-10 17:42:50 发布

阅读量3.3k

点赞数

分类专栏：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012526436/article/details/88062233

版权

深度学习同时被 2 个专栏收录

44 篇文章 6 订阅

订阅专栏

41 篇文章 18 订阅

订阅专栏

转载请注明出处，原文地址

前言

Adam 优化算法是随机梯度下降算法的优化，近来其广泛用于深度学习应用中，尤其是计算机视觉和自然语言处理等任务，该算法是Momentum算法与RMSprop算法的结合。动量梯度下降法Momentum我们之前已经讲解过，本文将会先介绍下RMSprop算法，再讲解Adam。

RMSprop(均方根)

在这里插入图片描述

在图中这样的情况时，梯度下降在横轴方向前进，在纵轴方向却会有大幅度的抖动。我们把横轴代表参数 $w 1$ ，把纵轴代表参数 $w 2$ 。注意，作为例子我们此处只引入了2个参数，实际情况会复杂很多。这里我们依然会使用指数加权平均数，如果你不了解指数加权平均数，请先阅览动量梯度下降法Momentum。
$S_{dw1} = \beta S_{dw1} + (1-\beta)(dW_1)^2$
$S_{dw2} = \beta S_{dw2} + (1-\beta)(dW_2)^2$

这里我们最后乘的是 $dW)^2$ 而不是 $d W$ ，计算出指数加权平均数之后，我们开始更新参数

$W_1 = W_1 - \alpha \frac{dW_1}{ \sqrt[]{S_{dw1}+\epsilon}}$
$W_2 = W_2 - \alpha \frac{dW_2}{ \sqrt[]{S_{dw2}+\epsilon}}$

此处的 $\epsilon$ 是为了防止分母为0

横轴 $w 1$ 因为抖动小，所以 $dW_1$ 的值很小， $S_{dw1}$ 的值很小，最终与 $\alpha$ 相乘的值就会很大， $W 1$ 抖动变动大，在横轴就会前进的更快。

纵轴 $w 2$ 因为抖动大，所以 $dW_2$ 的值很大， $S_{dw1}$ 的值很大，最终与 $\alpha$ 相乘的值就会很小， $w 2$ 抖动变小，纵向的变化相对平缓。

Adam算法

当把Momentum与RMSprop算法结合在一起时，就是Adam算法。

首先还是计算指数加权平均数，我们令 $V_{dW}=0$ 、 $V_{db}=0$ 、 $S_{dW}=0$ 、 $S_{db}=0$

接下来计算Momentum的指数加权平均数，注意超参数这里是 $\beta_1$

$V_{dW} = \beta_1 V_{dW} + (1-\beta_1)dW$

$V_{db} = \beta_1 V_{db} + (1-\beta_1)db$

再计算RMSprop的指数加权平均数，注意超参数这里是 $\beta_2$

$S_{dw} = \beta_2 S_{dw} + (1-\beta_2)(dW)^2$

$S_{db} = \beta_2 S_{db} + (1-\beta_2)(db)^2$

接下来进行参数修正，参数修正可以防止在迭代次数较少的时候，计算出来的指数加权平均数较小

$V_{dw}^{correct} = \frac{V_{dw}}{1- \beta_1^t}$

$V_{db}^{correct} = \frac{V_{db}}{1- \beta_1^t}$

$S_{dw}^{correct} = \frac{S_{dw}}{1- \beta_2^t}$

$S_{dw}^{correct} = \frac{S_{dw}}{1- \beta_2^t}$

最后更新参数

$\alpha \frac{V_{dw}^{correct}}{\sqrt[]{S_{dw}^{correct}+\epsilon}}$

$\alpha \frac{V_{db}^{correct}}{\sqrt[]{S_{db}^{correct}+\epsilon}}$

$\beta_1$ 常用的缺省值是0.9
$\beta_2$ Adam的发明者推荐使用的数值是0.999
$\epsilon$ 的取值没有那么重要,Adam论文的作者建议为 $\epsilon=10^{−8}$
在实际使用中, $\beta_1,\beta_2,\epsilon$ 都是使用的推荐的缺省值,需要调整的是学习率 $\alpha$

在这里插入图片描述

这是Adam 优化算法和其他优化算法在多层感知机模型中的对比，可见其收敛的速度较快，效果明显，并且Adam 算法很容易实现，有很高的计算效率和较低的内存需求。

爱编程真是太好了

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Adam优化算法

转载请注明出处，原文地址前言Adam 优化算法是随机梯度下降算法的优化，近来其广泛用于深度学习应用中，尤其是计算机视觉和自然语言处理等任务，该算法是Momentum算法与RMSprop算法的结合。动量梯度下降法Momentum我们之前已经讲解过，本文将会先介绍下RMSprop算法，再讲解Adam。RMSprop(均方根)在图中这样的情况时，梯度下降在横轴方向前进，在纵轴方向却会有大幅度的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。