【cs231n】深度学习优化方法

最新推荐文章于 2023-11-11 10:17:12 发布

JoeYF_

最新推荐文章于 2023-11-11 10:17:12 发布

阅读量311

点赞数 2

分类专栏： cs231n 文章标签： sgd adam

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qyf394613530/article/details/89334700

版权

文章目录

随机梯度下降

minibatch-SGD

最简单的更新形式，沿着梯度负方向改变参数，其中dx由小批量数据求得

x += - learning_rate * dx

学习率衰减

随步数衰减：经过多少步，衰减为之前得0.9
指数衰减： $\alpha = \alpha _ { 0 } e ^ { - k t }$
1/t衰减： $\alpha = \alpha _ { 0 } / ( 1 + k t )$

动量（Momentum）更新

基于动量的随机梯度下降的每次更新，不仅取决于当前的梯度，还取决于过去的梯度大小。当当前的梯度于之前不同时，那么真实的参数更新梯度会变小；相反，当当前梯度于之前相同时，真实参数的更新梯度会变大。在迭代后期，动量法会起到减少震荡，增加稳定性的作用。
$\begin{aligned} v _ { t } & = \gamma v _ { t - 1 } + g _ { t } \\ \theta _ { t } & = \theta _ { t - 1 } - \eta v _ { t } \end{aligned}$

$v_t$ 当前时刻梯度的指数衰减滑动平均
$v_{t-1}$ 上一时刻梯度的指数衰减滑动平均
$g_t$ 当前时刻的梯度
$\gamma$ 动量因子，控制着历史梯度信息对当前时刻梯度指数衰减滑动平均影响的大小

在训练初期， $g_t$ 每次的方向都相同，因此下降速度越快；若 $g_t$

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【cs231n】深度学习优化方法

文章目录随机梯度下降minibatch-SGD学习率衰减动量（Momentum）更新Nesterov动量更新逐参数适应学习率方法AdagradRMSpropAdam随机梯度下降minibatch-SGD最简单的更新形式，沿着梯度负方向改变参数，其中dx由小批量数据求得x += - learning_rate * dx学习率衰减随步数衰减：经过多少步，衰减为之前得0.9指数衰减：α...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。