梯度下降法

最新推荐文章于 2025-03-12 16:54:23 发布

钟良建呀

最新推荐文章于 2025-03-12 16:54:23 发布

阅读量218

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42518228/article/details/107078144

版权

机器学习专栏收录该内容

10 篇文章

订阅专栏

梯度下降法是机器学习中常用的优化算法，通过沿负梯度方向迭代来最小化损失函数。文章介绍了梯度的定义和方向导数的概念，接着详细讲解了随机梯度下降（SGD）、小批量梯度下降（Mini-batch）和批量梯度下降（BGD）的区别和特点，包括它们在学习效率、收敛速度和处理非凸函数能力上的差异。最后，提到了一些梯度下降的优化算法，如Momentum、Nesterov、Adagrad、Adadelta、RMSprop和Adam。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降法

1.原理

方向导数
如果函数 $z = f (x, y)$ 在点 $P (x, y)$ 处可微，则函数在该点任一方向 $L$ 的方向导数都存在，且有 $\frac{\partial f}{\partial l}=\frac{\partial f}{\partial x } \cos{\alpha}+\frac{\partial f}{\partial y}\cos{\beta}$ $\alpha、\beta:为方向L的方向角$ 方向导数表征了函数沿任意方向的变化的速度
梯度
设函数 $z = f (x, y)$ 在平面区域 $D$ 内具有一阶连续偏导数，则对于每一个点 $\in D$ ，向量 $\left ( \frac{\partial f}{\partial x},\frac{\partial f}{\partial y} \right )$ 为函数 $z = f (x, y)$ 在点 $P$ 处的梯度，记为grad $f (x, y)$
某点的梯度是某点方向导数的最大值，因此梯度代表的方向是函数增长最快的方向，而沿负梯度方向为函数下降最快的方向。

2.梯度下降法

初始化 $\theta$ (随机初始化)
沿负梯度方向迭代，更新 $\vec{\theta}$ 使 $L(\vec{\theta})$ 更小 $\vec{\theta}=\vec{\theta}-\alpha\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}}$ $\alpha-学习率(步长)$
直观理解

3.梯度下降法分类

随机梯度下降(SGD)
以单个样本的梯度作为权值 $\vec{\theta}$ 更新的方向
$l o s s = M e a n S q u a r e E r r o r$
$\vec{\theta}=\vec{\theta}-\alpha\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}} \ \ \ \ \ L(\vec{\theta})=\frac{1}{2}(\hat{y_i}-y_i)^2$ $i - 表示某一个样本$
特点：学习效率高，训练速度快，由于目标函数震荡严重，对于非凸函数可能跳过局部最优而找到更优解，但学习过程随机性大，导致学习过程难以收敛。
mini-batch梯度下降
以较小批次的样本的平均梯度作为权值 $\vec{\theta}$ 更新的方向
$l o s s = M e a n S q u a r e E r r o r$
$\vec{\theta}=\vec{\theta}-\alpha\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}} \ \ \ \ \ L(\vec{\theta})=\frac{1}{2b} \sum_{i=1}^{b}(\hat{y_i}-y_i)^2$ $b - 表示迷你批包含的样本个数、 i - 表示第 i 个样本$
特点：是随机梯度下降与批梯度下降方法的折中，在提升学习效率的同时有效缓解学习过程的随机性，减弱了目标函数的震荡，也能在一定程度跳过局部最优而找到更优解，较为常用。
批梯度下降(BGD)
以所有样本的平均梯度作为权值 $\vec{\theta}$ 更新的方向
$l o s s = M e a n S q u a r e E r r o r$
$\vec{\theta}=\vec{\theta}-\alpha\frac{\partial L(\vec{\theta})}{\partial \vec{\theta}} \ \ \ \ \ L(\vec{\theta})=\frac{1}{2n} \sum_{i=1}^{n} (\hat{y_i}-y_i)^2$ $n - 表示所有样本个数、 i - 表示第 i 个样本$
特点：将全部样本用于更新，能避免学习过程的随机性，确保模型的收敛，对于样本较多时，单次更新权值计算量大，训练速度慢，对于非凸函数容易陷入局部最优。