adam算法效果差原因_深度学习优化器-Adam两宗罪

最新推荐文章于 2024-05-15 07:48:24 发布

weixin_39536728

最新推荐文章于 2024-05-15 07:48:24 发布

阅读量2.1k

点赞数 1

文章标签： adam算法效果差原因

本文链接：https://blog.csdn.net/weixin_39536728/article/details/111518036

版权

文章讨论了Adam优化算法在深度学习中可能存在的不收敛及错过全局最优解问题。通过对Adam算法的收敛性和学习率调整进行分析，提出Adam在某些情况可能不收敛，并可能导致过早收敛至局部最优。解决方案包括对二阶动量进行控制以确保学习率单调递减，以及结合SGD在训练后期寻找最优解。建议在理解数据特性的基础上，适当地调整和选择优化算法。

摘要由CSDN通过智能技术生成

在上篇文章中，我们用一个框架来回顾了主流的深度学习优化算法。可以看到，一代又一代的研究者们为了我们能炼(xun)好(hao)金(mo)丹(xing)可谓是煞费苦心。从理论上看，一代更比一代完善，Adam/Nadam已经登峰造极了，为什么大家还是不忘初心SGD呢？

举个栗子。很多年以前，摄影离普罗大众非常遥远。十年前，傻瓜相机开始风靡，游客几乎人手一个。智能手机出现以后，摄影更是走进千家万户，手机随手一拍，前后两千万，照亮你的美(咦，这是什么乱七八糟的)。但是专业摄影师还是喜欢用单反，孜孜不倦地调光圈、快门、ISO、白平衡……一堆自拍党从不care的名词。技术的进步，使得傻瓜式操作就可以得到不错的效果，但是在特定的场景下，要拍出最好的效果，依然需要深入地理解光线、理解结构、理解器材。

优化算法大抵也如此。在上一篇中，我们用同一个框架让各类算法对号入座。可以看出，大家都是殊途同归，只是相当于在SGD基础上增加了各类学习率的主动控制。如果不想做精细的调优，那么Adam显然最便于直接拿来上手。

但这样的傻瓜式操作并不一定能够适应所有的场合。如果能够深入了解数据，研究员们可以更加自如地控制优化迭代的各类参数，实现更好的效果也并不奇怪。毕竟，精调的参数还比不过傻瓜式的Adam，无疑是在挑战顶级研究员们的炼丹经验！

最近，不少paper开怼Adam，我们简单看看都在说什么：

Adam罪状一：可能不收敛

这篇是正在深度学习领域顶级会议之一 ICLR 2018 匿名审稿中的 On the Convergence of Adam and Beyond，探讨了

最低0.47元/天解锁文章

weixin_39536728

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
adam算法效果差原因_深度学习优化器-Adam两宗罪

在上篇文章中，我们用一个框架来回顾了主流的深度学习优化算法。可以看到，一代又一代的研究者们为了我们能炼(xun)好(hao)金(mo)丹(xing)可谓是煞费苦心。从理论上看，一代更比一代完善，Adam/Nadam已经登峰造极了，为什么大家还是不忘初心SGD呢？举个栗子。很多年以前，摄影离普罗大众非常遥远。十年前，傻瓜相机开始风靡，游客几乎人手一个。智能手机出现以后，摄影更是走进千家万户，手机随手...
复制链接

扫一扫