李宏毅机器学习笔记01(梯度下降的一些内容)

最新推荐文章于 2024-10-01 23:00:34 发布

VZ_CCC

最新推荐文章于 2024-10-01 23:00:34 发布

阅读量289

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014610970/article/details/105588327

版权

在梯度下降中，learning rate是一个挺难选择的点：
选择大一点的学习率：可以快速的下降，但是容易出现降过头的现象。
选择较小的学习率：不容易错过极值点，但是迭代的时间太长。

一种常见的想法：就是想着随着参数调整次数的增多，学习率应该越来越小 a = a/(t+1) t表示迭代的次数；
但是最好的方式是每一个参数对应一个学习率，这样就引出了Adagrad。
在这里插入图片描述
adagrad的式子如上。

SGD:stochastic Gradient Descent 随机梯度（天下武功唯快不破）
在这里插入图片描述
每计算一个样本的loss就更新一次w，正常的情况下是所有的样本的loss计算完成之后取平均，然后更新w就如图的左边，方向是对的。那么sgd的做法就是计算一个样本之后就更新参数，虽然不一定方向正确，但是胜在第一种方法走一次，我SGD就走很多次，c从而达到快速迭代的目的。

接下来是特征缩放：
特征缩放的问题用这张图说明：
在这里插入图片描述
图的左边是未缩放的，虽然能够最终迭代到目标值，但是开始的时候由于没有缩放，导致影响力较大的那个值的梯度方向上更加被有限下降，相当于多走了弯路；而在进行了梯度缩放之后，如右图，梯度下降的时候，直接剑指圆心，不会走弯路，所以特征缩放确实很有用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。