深度学习中常用的Adam算法

最新推荐文章于 2024-06-01 23:15:00 发布

中南冉毛毛

最新推荐文章于 2024-06-01 23:15:00 发布

阅读量1.2w

点赞数 4

本文链接：https://blog.csdn.net/weixin_42869502/article/details/115028439

版权

一、Adam算法
Adam（Adaptive momentum）是一种自适应动量的随机优化方法（A method for stochastic optimization），经常作为深度学习中的优化器算法。
二、算法详细步骤
在这里插入图片描述

引用

三、Adam优化算法的基本机制

Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率（即 alpha）更新所有的权重，学习率在训练过程中并不会改变。而 Adam 通过计算梯度的***一阶矩估计***和***二阶矩估计***而为不同的参数设计独立的自适应性学习率。Adam 算法的提出者描述其为两种随机梯度下降扩展式的优点集合，即：
适应性梯度算法（AdaGrad）为每一个参数保留一个学习率以提升在稀疏梯度（即自然语言和计算机视觉问题）上的性能。
均方根传播（RMSProp）基于权重梯度最近量级的均值为每一个参数适应性地保留学习率。这意味着算法在非稳态和在线问题上有很有优秀的性能。
Adam 算法同时获得了 AdaGrad 和 RMSProp 算法的优点。Adam 不仅如 RMSProp 算法那样基于一阶矩均值计算适应性参数学习率，它同时还充分利用了梯度的二阶矩均值（即有偏方差/uncentered variance）。具体来说，算法计算了梯度的指数移动均值（exponential moving average），超参数 beta1 和 beta2 控制了这些移动均值的衰减率。
在这里插入图片描述
Adam优化算法需要做偏差修正：

更新权重：

一些超参数：
α ：最重要的超参，一般都需要去调节
β：一般默认值分别是0.9和0.999，一般去默认值不会去调节
ε：一个不怎么重要的超参，一般不用调节

四、附
在这里插入图片描述

引用

中南冉毛毛

关注

4
点赞
踩
78

收藏

觉得还不错? 一键收藏
2
评论
深度学习中常用的Adam算法

一、Adam算法Adam（Adaptive momentum）是一种自适应动量的随机优化方法（A method for stochastic optimization），经常作为深度学习中的优化器算法。二、算法详细步骤引用三、Adam优化算法的基本机制Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率（即 alpha）更新所有的权重，学习率在训练过程中并不会改变。而 Adam 通过计算梯度的***一阶矩估计***和***二阶矩估计***而为不同的参数设计独立的自适应性学习
复制链接

扫一扫