2 PRELIMINARIES
Primitives: L(θ) loss函数; L^(θ)近似器; 函数L的梯度;g; a; s; v; w存储缓冲区,都可以用下标t表示;g动量缓冲;
Optimization algorithms:
词:1.perform a sequence of steps 执行一系列步骤 2.rather than as full pseudocode 而不是完整的伪代码
总体更新规则:
SGD:
Momentum:,当时,即为SGD优化算法。控制动量的更新速度;在随机设置中,也控制归一化动量的方差。通常取0.9. 通过归一化或减弱g。这既消除了更新步长对beta的依赖,并且合理解释g是过去梯度的加权平均。
3.ALGORITHM: QUASI-HYPERBOLIC MOMENTUM (QHM)
QHM:,建议v=0.7,beta=0.9999.
Interpretation:短语:1.exponential discount factor 指数加权因子 2.immediate discount factor立即加权因子 3.encapsulating封装4.at first glance 乍一看 5. identical to 等同于
v=0时为SGD,v=1时为SGDM,v是动量更新步长和原始SGD更新步长的加权平均。
QHM vs. momentum:QHM是beta和1-beta的耦合。
Variance reduction:1.speculative推测性的
4 CONNECTIONS TO OTHER ALGORITHMS
4.1 NESTEROV’S ACCELERATED GRADIENT
QHM reconers NAG with v=beta.