[李宏毅机器学习笔记] Gradient Descent

最新推荐文章于 2024-08-06 20:17:03 发布

Haley__xu

最新推荐文章于 2024-08-06 20:17:03 发布

阅读量179

点赞数

分类专栏：笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Haley__xu/article/details/112330386

版权

本文是李宏毅机器学习课程的笔记，重点介绍了梯度下降法及其优化策略。讨论了如何通过Loss函数寻找最优参数，强调了学习率设置的重要性，并对比了Adagrad和Stochastic Gradient Descent。同时，提到了特征缩放在加速梯度下降过程中的作用，以及在实际应用中应注意的数据预处理和梯度下降的问题。

摘要由CSDN通过智能技术生成

文章目录

前言
1 Gradient Descent
总结

前言

学习李宏毅老师的课程，所作的笔记，文中使用的PPT均来自李宏毅老师讲演PPT。

1 Gradient Descent

我们为了在一个模型中寻找一个最好的函数，通过使用Loss函数达到这一目的。通过对Loss函数的描述，我们想要知道达到Loss最小对应的参数。

通过使用梯度下降的方式计算达到最小值的方式。这里以二维的参数作为例子，说明了▽L(θ)的由来；这里还有学习率（Learning Rate）ŋ，所以每一次的该变量是：-ŋ▽L(θ)（迭代的步长）；

寻找最小值的过程：

合理的设置Learning rate 十分重要，通常可视化的是参数的迭代和Loss的函数。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
[李宏毅机器学习笔记] Gradient Descent

文章目录前言一、Gradient Descent总结前言学习李宏毅老师的课程，所作的笔记，文中使用的PPT均来自李宏毅老师讲演PPT一、Gradient Descent 我们为了在一个模型中寻找一个最好的函数，通过使用Loss函数达到这一目的。通过对Loss函数的描述，我们想要知道达到Loss最小对应的参数。通过使用梯度下降的方式计算达到最小值的方式。这里以二维的参数作为例子，说明了▽L(θ)的由来；这里还有学习率（Learning Rate）ŋ，所以每一次的该变量是：-ŋ▽L(θ
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Haley__xu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。