4.Gradient Descent

最新推荐文章于 2024-01-08 01:24:35 发布

与或

最新推荐文章于 2024-01-08 01:24:35 发布

阅读量127

点赞数 1

分类专栏： Machine Learning 文章标签：深度学习机器学习李宏毅 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37774399/article/details/118732973

版权

Machine Learning 专栏收录该内容

24 篇文章 4 订阅

订阅专栏

李宏毅2021春机器学习笔记

1.机器学习介绍

3.Bias and Variance

4.Gradient Descent

Tip 1：Tuning your learning rates

大原则：通常Learning rate是随着参数的update 会越来越小的。

给不同的参数不同的learning rate。

这件事情，是有很多小技巧的，其中最容易实做的叫 Adagrad。

Adagrad

一个大一个小，是不发生冲突的，因为Adagrad 主要想体现的是“反差”

gradient 的值越大就跟最低点的距离越远，这件事情在有好多个参数的时候，是不一定成立的（没有考虑跨参数的时候，gradient 的值和最低点的距离是成正比的）。

跨参数：比如 a 和 c

如果同时考虑好几个参数的话，最好的方法是同时除以各自的2次微分

Tip 2：Stochastic Gradient Descent

随机梯度下降的目的：make the training faster

在原来的gradient descent 里面，你计算所有data的loss ，然后才update 参数。

但在 Stochastic Gradient Descent 里面就是看见一个example 就update 一个参数。

好处：

Tip 3：Feature Scaling

椭圆形的error surface 如果你不做些Adagrad什么的，你是很难搞定它的。

因为不同的方向上需要不同的learning rate，你要adaptive learning 才能搞定它。

如果你有scale 的话，他就变成一个正圆形，这时候 update 参数就会比较容易。

而且，gradient descent它并不是向着最低点走，是顺着等高线的方向，如果有 scale 的话（绿色），不管你在这个区域的哪个点，它都会向着圆心走。

所以，如果你有做feature scaling的时候，你再做参数的update的时候，是比较有效率的。

Feature scaling 常见做法：

对每一个dimension i 都去算它的mean 记作m _i ;都去算它的 deviation 记作 σ _i，然后标准化

Gradient Descent Theory

本节主要介绍 Gradient Descent 背后的理论基础。

注意，update 参数后，loss 不一定会变小（可能learning rate 太大跳出峡谷）

如果你给我一整个 error function ，我没用办法马上一秒钟就告诉你说它的最低点在哪里。

但是如果你给我一个error function 加上一个初始的点，我可以告诉你说，在这个初始点附近，画一个范围之内，找到最小的值，然后更新我们的中心位置。不断的重复…

高能预警！！！

现在的问题是：怎么在红色的圈圈里面，找一个可以让loss最小的参数呢？

这个地方要从 Taylor Series说起

这样我们就可以秒算 θ₁ θ₂ ，取反方向的时候 loss最小。

当你今天画出的红色圈圈够小的时候，Taylor Series 给我们的approximation 才会够精确。

只有learning rate 无穷小的时候，loss 的这个式子才会成立。

所有在Gradient Descent，如果你每次update 参数的时候，理论上你的learning rate要无穷小，你才能够保证这件事情（虽然实作上，只要够小就行了）。如果你的learning rate 没有设好，是有可能说这个loss 式子是不成立的，所以导致你做Gradient Descent 的时候，你没有办法让loss越来越小。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
4.Gradient Descent

李宏毅2021春机器学习笔记1.机器学习介绍2.Regression3.Bias and Variance4.Gradient DescentTip 1：Tuning your learning ratesAdagradTip 2：Stochastic Gradient DescentTip 3：Feature ScalingFeature scaling 常见做法：Gradient Descent Theory高能预警！！！Tip 1：Tuning your learning rates大
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

与或 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。