Adam

最新推荐文章于 2025-01-05 10:48:57 发布

水言车

最新推荐文章于 2025-01-05 10:48:57 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习算法统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xyzx043874/article/details/79301484

版权

机器学习算法同时被 2 个专栏收录

6 篇文章

订阅专栏

4 篇文章

订阅专栏

Adam方法同样融合了 AdaGrad和RMSProp，更新公式如下：

w t = w t - 1 - α * m t ^ v t ^ - - \sqrt + ϵ

$w_{t} = w_{t-1} - \alpha * \frac{\hat {m_t}}{\sqrt{\hat{v_t}}+\epsilon}$
其中

t $t$ 表示次数，

mt^ $\hat{m_t}$ 为

mt $m_t$ 的纠正，

vt^ $\hat{v_t}$ 为

vt $v_t$ 的纠正

m t^= m t 1 - β t 1

$\hat{m_t}=\frac{m_t}{1- \beta_1^t}$

v t^= v t 1 - β t 2

$\hat{v_t}=\frac{v_t}{1- \beta_2^t}$

β1 $\beta_1$ 和

β2 $\beta_2$ 是常数，控制指数衰减，

mt $m_t$ 是梯度的指数移动均值，通过梯度的一阶矩求得。

vt $v_t$ 是平方梯度，通过梯度的二阶矩求得。

mt $m_t$ 和

vt $v_t$ 的更新如下：

m t = β 1 * m t - 1 + (1 - β 1) * g t

$m_t = \beta_1 * m_{t-1} + (1- \beta _1)*g_t$

v t = β 2 * v t - 1 + (1 - β 2) * g 2 t

$v_t = \beta_2 * v_{t-1} + (1- \beta _2)*g_t^2$

gt $g_t$ 为一阶导。以上所有参数的默认设置为：

α=0.001，β1=0.9，β2=0.999，ϵ=10−8 $\alpha = 0.001，\beta_1 = 0.9，\beta_2 = 0.999，\epsilon = 10^{-8}$

在文章中，指明 $\hat{m_t}/ \sqrt{\hat{v_t}}$ 当值很小时，也意味这对目前的方向越不确定，就会有更小的步长，也是一种自动退火的形式。
参考：
Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.

博客等级

码龄10年

16
原创

16
点赞

17
收藏

13
粉丝

关注

私信

热门文章

分类专栏

最新评论

协方差矩阵
技术卷: 三处错误： 1、conv应该为cov 2、最后那个Xi-uy应该为Yi-uy 3、求和的积不等于积的求和，最后一步错误
点到超平面距离
MENG哥: 厉害啊
Check failed: registry.count(t ype) == 1 (0 vs. 1) Unknown layer type: Input (known types: Input )
水言车回复伟大的洛伦佐: 首先，我注明了原文章出处。其次，我记录这个问题的原因，是防止我自己找不到。再次，这种使用问题，有坑，要解决，并不是没有用的。我理解你的难处，你应该是用的百度，你可以试试其他搜索引擎
Check failed: registry.count(t ype) == 1 (0 vs. 1) Unknown layer type: Input (known types: Input )
伟大的洛伦佐: 为什么非要抄袭别人的解决方案，虽然不能解决问题，但是全网都是copy来copy去，有意思吗，就不能安心做点有用的
Caffe微调
水言车回复 MENG哥: 厉害啊！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。