QUASI-HYPERBOLIC (拟双曲线) MOMENTUM AND ADAM FOR DEEP LEARNING——精读

最新推荐文章于 2022-07-04 19:39:17 发布

小乐&小蓝的house

最新推荐文章于 2022-07-04 19:39:17 发布

阅读量567

点赞数

分类专栏：优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34738572/article/details/106250536

版权

优化专栏收录该内容

7 篇文章 1 订阅

订阅专栏

2 PRELIMINARIES

Primitives: L(θ) loss函数； L^(θ)近似器；函数L的梯度；g; a; s; v; w存储缓冲区，都可以用下标t表示；g动量缓冲；

Optimization algorithms：
词：1.perform a sequence of steps 执行一系列步骤 2.rather than as full pseudocode 而不是完整的伪代码
总体更新规则：

SGD:

Momentum：，当时，即为SGD优化算法。控制动量的更新速度；在随机设置中，也控制归一化动量的方差。通常取0.9. 通过归一化或减弱g。这既消除了更新步长对beta的依赖，并且合理解释g是过去梯度的加权平均。

3.ALGORITHM: QUASI-HYPERBOLIC MOMENTUM (QHM)

QHM：，建议v=0.7，beta=0.9999.

Interpretation：短语：1.exponential discount factor 指数加权因子 2.immediate discount factor立即加权因子 3.encapsulating封装4.at first glance 乍一看 5. identical to 等同于
v=0时为SGD,v=1时为SGDM，v是动量更新步长和原始SGD更新步长的加权平均。

QHM vs. momentum：QHM是beta和1-beta的耦合。

Variance reduction：1.speculative推测性的

4 CONNECTIONS TO OTHER ALGORITHMS

4.1 NESTEROV’S ACCELERATED GRADIENT

QHM reconers NAG with v=beta.

小乐&小蓝的house

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。