梯度下降算法中的Adagrad和Adadelta

最新推荐文章于 2024-08-02 21:04:01 发布

joshuaxx316

最新推荐文章于 2024-08-02 21:04:01 发布

阅读量3.6w

点赞数 2

分类专栏：机器学习与深度学习文章标签：算法优化机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/joshuaxx316/article/details/52062291

版权

Adagrad和Adadelta是梯度下降算法的两种变体，主要解决了学习率调整的问题。Adagrad通过使用每个参数的历史梯度平方和来动态调整学习率，但可能导致后期学习率过小。Adadelta引入了窗口大小限制历史梯度的累积，以避免学习率快速衰减，从而改善Adagrad的不足。这两种算法在机器学习和深度学习中常用于优化模型参数。

摘要由CSDN通过智能技术生成

梯度下降算法

目录

- 目录
- Adagrad
- Adadelta

Adagrad

与梯度下降不同的是，更新规则中，对于学习率不在设置固定的值，每次迭代过程中，每个参数优化时使用不同的学习率。
假设某次迭代时刻t， $g_{t,i} = \nabla_\theta J(\theta_i)$ 是目标函数对参数的梯度，普通的随机梯度下降算法，对于所有的 $\theta_i$ 都使用相同的学习率，因此迭代到第t次时，某一个参数向量 $\theta_i$ 的变化过程如下：

θ t + 1, i = θ t, i - η \cdot g t, i

$\theta_{t+1,i} = \theta_{t,i} - \eta·g_{t,i}$
而在Adagrad的更新规则中，学习率

η $\textbf{$\eta$}$ 会随着每次迭代而根据历史梯度的变化而变化。

θ t + 1, i = θ t, i - η G t + ϵ - - - - - \sqrt

最低0.47元/天解锁文章

关注

2
点赞
踩
40

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。