本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景。
1、SGD的原理
SGD(随机梯度下降法)是基于最速梯度下降法的原理,假设我们存在损失函数,其中是要学习参数,定义如下的优化路径,使得损失函数值最小。这是一个不断更新迭代参数的过程,其中表示其中某一更新步,表示更新步长(即学习率),表示更新方向。
假设存在最优参数,当前参数为最优参数附近的,我们选择合适的参数更新步长,使得逼迫最优参数。我们对目标损失函数进行泰勒展开:
本文将从SGD开始介绍Adam优化器的原理以及其变种的提出背景。
SGD(随机梯度下降法)是基于最速梯度下降法的原理,假设我们存在损失函数,其中是要学习参数,定义如下的优化路径,使得损失函数值最小。这是一个不断更新迭代参数的过程,其中表示其中某一更新步,表示更新步长(即学习率),表示更新方向。
假设存在最优参数,当前参数为最优参数附近的,我们选择合适的参数更新步长,使得逼迫最优参数。我们对目标损失函数进行泰勒展开: