【055】CNN 优化器 Adam 自适应矩估计

最新推荐文章于 2023-05-29 13:14:06 发布

小麦粒

最新推荐文章于 2023-05-29 13:14:06 发布

阅读量3.7k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010986753/article/details/105502136

版权

内容目录

一、Adam 介绍二、Adam 优点三、Adma 算法公式

一、Adam 介绍

Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率（即 alpha）更新所有的权重，学习率在训练过程中并不会改变。而 Adam 通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

适应性梯度算法（AdaGrad）为每一个参数保留一个学习率以提升在稀疏梯度（即自然语言和计算机视觉问题）上的性能。
均方根传播（RMSProp）基于权重梯度最近量级的均值为每一个参数适应性地保留学习率。这意味着算法在非稳态和在线问题上有很有优秀的性能。
Adam 算法同时获得了 AdaGrad 和 RMSProp 算法的优点。Adam 不仅如 RMSProp 算法那样基于一阶矩均值计算适应性参数学习率，它同时还充分利用了梯度的二阶矩均值（即有偏方差/uncentered variance）。
具体来说，算法计算了梯度的指数移动均值（exponential moving average），超参数 b

最低0.47元/天解锁文章

关注

0
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
【055】CNN 优化器 Adam 自适应矩估计

内容目录一、Adam 介绍二、Adam 优点三、Adma 算法公式一、Adam 介绍 Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率（即 alpha）更新所有的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。