随机梯度下降算法原理

最新推荐文章于 2024-07-31 14:47:45 发布

午夜零时

最新推荐文章于 2024-07-31 14:47:45 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_55796594/article/details/124570314

版权

机器学习专栏收录该内容

17 篇文章 2 订阅

订阅专栏

本文详细介绍了梯度下降算法的基本原理和实现步骤。该算法主要用于求解函数的极小值，通过每次迭代逐步逼近目标。在推导过程中提到了学习率的重要性，以及如何通过最小化损失函数来更新参数。值得注意的是，梯度下降并不保证找到全局最小值，而是会收敛到局部最小值。适合于大规模数据集的优化问题。

摘要由CSDN通过智能技术生成

1.算法目标

逐渐逼近损失函数 loss 的极小值，简单抽象为求函数 $f(x)$ 的极小值。

2.算法描述

每次取一个增量 $\delta \vec{x}$ ，使得 $f(\vec{x} + \delta \vec{x}) - f(\vec{x}) \leq 0$ ，每次向函数值更小的地方前进一小步，多次迭代就能做到逐渐逼近函数 $f(x)$ 的极小值。

3.算法推导

展开 $f(\vec{x} + \delta \vec{x})$ 得到公式 $f(\vec{x} + \delta \vec{x}) \approx f(\vec{x}) + \triangledown f(x)\cdot \delta \vec{x} + H \cdot \delta \vec{x}\cdot \delta \vec{x}$ 。

其中H为海森矩阵，暂且不考虑。为使 $f(\vec{x} + \delta \vec{x}) - f(\vec{x}) = \triangledown f(x)\cdot \delta \vec{x} \leq 0$ 成立，只需要保证 $\triangledown f(x)\cdot \delta \vec{x} \leq 0$ 。

即，当 $\delta \vec{x} = -\eta \cdot \bigtriangledown f(\vec{x})$ 时， $\triangledown f(x)\cdot \delta \vec{x} = -\eta \cdot \triangledown f(x)^{2} \leq 0$ ，如此即可保证每次更新在逐渐逼近函数的极小值。其中 $\eta$ 为学习率是一个较小的正数。

每次更新时做 $x = x -\eta \cdot \bigtriangledown f(\vec{x})$ 操作，求得 $f(x)$ 的最小值。

4.注意

上述过程是在逼近极小值，不一定是函数的最小值。

$x = x -\eta \cdot \bigtriangledown f(\vec{x})$ 是一种下降趋势，整个循环步骤中函数值 $f(x)$ 在下降，并非每个小步骤得到的函数值都比前一次要小。

午夜零时

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
随机梯度下降算法原理

目录1.算法目标2.算法描述3.算法推导4.注意1.算法目标逐渐逼近损失函数 loss 的极小值，简单抽象为求函数的极小值。2.算法描述每次取一个增量，使得，每次向函数值更小的地方前进一小步，多次迭代就能做到逐渐逼近函数的极小值。3.算法推导展开得到公式。其中H为海森矩阵，暂且不考虑。为使成立，只需要保证。即，当时，，如此即可保证每次更新在逐渐逼近函数的极小值。其中为学习率是一个较小的正数。每次更新时做操作，求得的最小值。4.注意上..
复制链接

扫一扫

专栏目录