AdaGrad之2011年；Adam之2015年【借助中国历史增强记忆学习一丢丢知识】

本文链接：https://blog.csdn.net/weixin_38392612/article/details/136617122

文章目录

一、随笔

复习机器学习知识，再次编程tensorflow一些程序时，对这个最小二乘法，adam这些概念领域有些混，于是，发起了一些问题，发现两个概念：自适应学习率算法、优化算法这两个容易混。特此记录写点东西。

二、起源

问1：最小二乘法和SGD是自适应学习率算法吗?SGD呢？

答：最小二乘法不是自适应学习率算法，而SGD（随机梯度下降）也不是，但SGD可以与自适应学习率算法结合使用。

SGD是一种优化算法，用于在机器学习中更新和计算模型的参数。在SGD中，每次迭代使用一个小批量样本计算梯度并更新参数。本身并不具备自适应学习率的功能，即SGD不会根据训练过程中的情况自动调整学习率。

问2：Adam是优化算法吗？

答：Adam是一种优化算法。

问3：自适应学习率算法有哪些？

答：自适应学习率算法是机器学习领域中的一类重要算法，它们可以根据训练过程中的不同情况动态地调整学习率，以提高模型的训练效率和性能。以下是一些常见的自适应学习率算法及其发明年份：

AdaGrad算法：能够自动调整每个参数的学习率，对于稀疏数据特别有效。

RMSProp算法：RMSProp算法是对AdaGrad算法的一种改进，它旨在解决AdaGrad在训练后期可能导致的学习率过小的问题。RMSProp通过引入一个衰减率来控制历史梯度的累积，从而避免学习率过快地衰减。然而，需要注意的是，RMSProp并没有一个明确的“发明年份”，因为它更像是一种在实践中逐渐发展和完善的方法，而不是由一个具体的研究者在某个特定年份提出的。

Adam算法：Adam算法结合了Momentum和RMSProp的思想，它使用梯度的一阶矩估计（均值）和二阶矩估计（未中心化的方差）来动态调整每个参数的学习率。Adam算法在深度学习领域应用广泛，因其性能表现良好，计算效率高，且基本不需要调参。

三、AdaGrad的2011年和Adam的2015年

2011年 由John Duchi（斯坦福大学统计与电气工程系的助理教授，Duchi于2014年在加州大学伯克利分校获得了计算机科学博士学位。要是感觉英文不好记忆，翻译下代号：约翰·杜奇？？肚脐？？帮助记忆吧）在首次提出。AdaGrad算法它主要加大稀疏参数的学习率而降低非稀疏参数的学习率，从而提高了收敛性能。
在这里插入图片描述图1 约翰杜奇