00-03Gradient descent梯度下降

最新推荐文章于 2025-04-03 20:14:17 发布

loongqian

最新推荐文章于 2025-04-03 20:14:17 发布

阅读量182

点赞数

分类专栏：我的机器学习之路---0---李宏毅老师视频文章标签：机器学习李宏毅

本文链接：https://blog.csdn.net/loongqian/article/details/80337750

版权

我的机器学习之路---0---李宏毅老师视频专栏收录该内容

4 篇文章

订阅专栏

1、把大象关进冰箱的第三步

回顾一下，ML的第三步---找出loss最小的function---此处用θ（上标星）表示。

假如θ有两个变量θ1，θ2，从任意位置θ0处开始，计算偏微分，更新θ，如此不断更新很多次之后，就会找到loss最小的function。但这么做是不是有点简单粗暴呢，下面讲gradient descent三个小技巧。

Tip1:tuning your learning rate

Tip2:Stochastic gradient descent---make the training faster

Tip3:Feature scaling

1、如下图左边所示，在一维二维的情况下，我们可以把loss和参数之间的关系可视化出来，但涉及到很多参数的情况下，就没办法可视化了，但是我们总能把更新参数和loss之间的关系可视化出来，就想图右边一样。

像上图一样，如果learning rate是固定一成不变的话，那么有可能出现蓝色的情况，learning rate很小，参数一直在蜗牛的速度更新，绿色的情况，learning rate中等，总是会在optimization处来回徘徊，黄色的情况，learning rate太大，loss之间飞出去了，这时候我们就意识到，如果learning rate能随情况更新就好了，我们需要adaptive learning rates。