QUASI-HYPERBOLIC (拟双曲线) MOMENTUM AND ADAM FOR DEEP LEARNING——精读

2 PRELIMINARIES

Primitives: L(θ) loss函数;   L^(θ)近似器;    函数L的梯度;g; a; s; v; w存储缓冲区,都可以用下标t表示;g动量缓冲;

Optimization algorithms:
词:1.perform a sequence of steps  执行一系列步骤 2.rather than as full  pseudocode  而不是完整的伪代码
总体更新规则:

SGD:    

Momentum:,当时,即为SGD优化算法。控制动量的更新速度;在随机设置中,也控制归一化动量的方差。通常取0.9. 通过归一化或减弱g。这既消除了更新步长对beta的依赖,并且合理解释g是过去梯度的加权平均。

3.ALGORITHM: QUASI-HYPERBOLIC MOMENTUM (QHM)

QHM:,建议v=0.7,beta=0.9999.

Interpretation:短语:1.exponential discount factor 指数加权因子  2.immediate discount factor立即加权因子  3.encapsulating封装4.at first glance 乍一看 5. identical to 等同于
v=0时为SGD,v=1时为SGDM,v是动量更新步长和原始SGD更新步长的加权平均。

QHM vs. momentum:QHM是beta和1-beta的耦合。

Variance reduction:1.speculative推测性的

4 CONNECTIONS TO OTHER ALGORITHMS

4.1 NESTEROV’S ACCELERATED GRADIENT

QHM reconers NAG with v=beta.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值