李宏毅机器学习笔记-3 梯度下降（Gradient Descent）

MemoryD

于 2018-05-20 16:18:46 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习 Gradient Descent

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MemoryD/article/details/80383184

本文介绍了梯度下降法在机器学习中的应用，阐述了为何使用梯度下降以及其基本操作。通过举例和直观解释展示了梯度下降如何找到损失函数的最小值。此外，还讨论了Adagrad、随机梯度下降（Stochastic Gradient Descent）和特征缩放等优化策略，以及梯度下降的局限性和数学原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3 Gradient Descent - 梯度下降

1 为什么要用 Gradient Descent

首先让我们回顾一下机器学习的三部曲，

在 step 2 中，我们要定义一个 Loss Function，用来判断我们找出的函数的好坏。

在 step 3 中，我们要挑出一个可以使得 Loss 函数值最小的一个函数，当做最好的函数。
想一想我们以前是怎么求一个函数的最小值的，或许看一下就出来了，或者简单求个导。但是在神经网络中，我们面临的是一个参数可能上万个，百万个甚至更多的函数，显然我们需要更好的方法。
而这个方法就是 Gradient Descent。

2 Gradient Descent 怎么做

首先我们要知道 梯度（Grad） 这个概念，梯度就是 一个函数增长最快的方向。而 Gradient Descent 就是沿着梯度的反方向，也就是下降得最快的方向前进，直至找到一个最小值（理论上来说可能只能找到极小值，但是经过一些变种，好像可以增大找到最小值的概率）。
举个例子：

稍微解释一下就是：
1. 先随机（或者其他更有效的方法）设置一个初始值 $\theta ^ 0$ ；
2. 算出 $\theta ^ 0$ 上的梯度值 $\nabla L(\theta)$ ;
3. 令 $\theta ^ 1 = \theta ^ 0 - \eta \nabla L(\theta)$ 。其中 $\eta$ 叫做 learning rate ，决定步长。
4. 算出 θ1

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。