深度学习中的优化算法

最新推荐文章于 2023-06-09 20:01:26 发布

随风秀舞

最新推荐文章于 2023-06-09 20:01:26 发布

阅读量171

点赞数

分类专栏：人工智能/深度学习/机器学习文章标签：优化算法动量 RMSprop Adam

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jasonleesjtu/article/details/90553114

版权

人工智能/深度学习/机器学习专栏收录该内容

19 篇文章 1 订阅

订阅专栏

如何确定mini-batch的大小？

64， 128， 256，。。。。。。
数据大小适应CPU / GPU内存的大小

Exponentially weighted averages

$v_t = \beta v_{t-1} + (1-\beta) \theta_t$
$\theta_t$ 是原始数据， $v_t$ 是构造的新数据。

加入偏差校正
$v_t = \frac{v_t}{1-\beta^t}$

动量

$\beta v + (1-\beta)\nabla w$

$\alpha v$

RMSprop

RMSProp在梯度累积的时候，会对“过去”与“现在”做一个平衡
$\theta_t = \beta\theta_t + (1+\beta)(\nabla w_t)^2$

$w_t = w_t -\frac{\alpha}{\sqrt{\theta_t+\delta}}\nabla w_t$

Adam

将动量与RMSprop结合起来。

$\beta_1 v + (1-\beta_1) \nabla w$

$\theta = \beta_2 \theta + (1-\beta_2)(\nabla w)^2$

更新参数
$\frac{\alpha}{\sqrt{\theta+\delta}}v$

开始时梯度会很小， $v$ 和 $\theta$ 经常会接近0，因此需要进行校正：
$\frac{v}{1-\beta^t_1},\quad \theta = \frac{\theta}{1-\beta^t_2}$

Learning rate decay

$\alpha = \frac{1}{1+decay\_rate \times epoch}\alpha_0$

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习中的优化算法

如何确定mini-batch的大小？64， 128， 256，。。。。。。数据大小适应CPU / GPU内存的大小Exponentially weighted averagesvt=βvt−1+(1−β)θtv_t = \beta v_{t-1} + (1-\beta) \theta_tvt=βvt−1+(1−β)θtθt\theta_tθt是原始数据，vtv_tvt是构造的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。