李宏毅ML-03-Gradient Decent 2

最新推荐文章于 2021-03-14 14:14:35 发布

MOFD0

最新推荐文章于 2021-03-14 14:14:35 发布

阅读量156

点赞数

分类专栏： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43238442/article/details/90175731

版权

梯度下降的tips

Outline

Adagard
Stochastic Gradient Descent
Feature Scaling
Math theory of gradient descent

1 Adagrad

常用的思想就是使得learning rate随着参数的update慢慢变小。距离极值较远的时候使用较大的的learning rate，距离极值较近的时候使用较小的learning rate。

1.1 Adagrad原理

Adagrad 给每个参数赋予不同的随时间变化的学习率。具体更新式子如下：
$w_{t+1}=w_t-\frac{\eta_t}{\sigma_t}\frac{\partial L}{\partial w}$
其中:
$\eta_t=\frac{\eta}{\sqrt{t+1}}$
设偏微分使用 $g=\frac{\partial L}{\partial w}$ 来表示
$\sigma_t=\sqrt{\frac{g_0^2+g_1^2+...+g_t^2}{t+1}}$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅ML-03-Gradient Decent 2

Gradient Descent 的技巧可调节的学习率常用的思想就是使得learning rate随着参数的update慢慢变小。距离极值较远的时候使用较大的的learning rate，距离极值较近的时候使用较小的learning rate。1 Adagrad1.1 Adagrad原理Adagrad 给每个参数赋予不同的随时间变化的学习率。具体更新式子如下：wt+1=wt−ηtσt∂...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。