统计学习方法--梯度下降法

最新推荐文章于 2022-11-28 09:03:53 发布

三维虫子

最新推荐文章于 2022-11-28 09:03:53 发布

阅读量333

点赞数

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_45761584/article/details/115574923

版权

机器学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

与公众号同步更新，详细内容及相关ipynb文件在公众号中，公众号：AI入门小白

梯度下降法(gradient descent) 或最速下降法(steepest descent) 是求解无约束最优化问题的一种最常用的方法，具有实现简单的优点。梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。

假设 $f (x)$ 是 $R^n$ 上具有一阶连续偏导数的函数。要求解的无约束最优化问题是
$\min_{x \in R^n} f(x) \quad \tag{A.1}$
$x^*$ 表示目标函数 $f (x)$ 的极小点。

梯度下降法是一种选代算法。选取适当的初值 $x^{(0)}$ ，不断迭代，更新 $x$ 的值，进行目标函数的极小化，直到收敛。由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新 $x$ 的值，从而达到减少函数值的目的。

由于 $f (x)$ 具有一阶连续偏导数，若第 $k$ 次迭代值为 $x^{(k)}$ ，则可将 $f (x)$ 在 $x^{(k)}$ 附近进行一阶泰勒展开：
$f(x^{(k)}) + g_k^T (x - x^{(k)}) \quad \tag{A.2}$
这里， $g_k = g(x^{(k)}) = \triangledown f(x^{(k)})$ 为 $f (x)$ 在 $x^{(k)}$ 的梯度。

求出第 $k + 1$ 次迭代值 $x^{(k+1)}$ ：
$x^{(k+1)} \leftarrow x^{(k)} + \lambda_k p_k \quad \tag{A.3}$
其中， $p_k$ 是搜索方向，取负梯度方向 $p_k = -\triangledown f(x^{(k)}), \lambda_k$ 是步长，由一维搜索确定，即 $\lambda_k$ 使得
$f(x^{(k)} + \lambda_k p_k) = \min_{\lambda \geq 0} f(x^{(k)} + \lambda p_k) \quad \tag{A.4}$
算法A.1(梯度下降法)

输入：目标函数 $f (x)$ ，梯度函数 $\triangledown f(x)$ ，计算精度 $\varepsilon$ ；
输出：f(x)的极小点 $x^*$ 。

(1)取初始值 $x^{(0)} \in R^n$ ，置 $k = 0$ 。
(2)计算 $f(x^{(k)})$ 。
(3)计算梯度 $g_k = g(x^{(k)})$ ，当 $\lVert g_k\rVert < \varepsilon$ 时，停止迭代，令 $x^* = x^{(k)}$ ；否则，令 $p_k = -g(x^{(k)})$ ，求 $\lambda_k$ ，使
$f(x^{(k)} + \lambda_k p_k) = \min_{\lambda \geq 0} f(x^{(k)} + \lambda p_k)$
(4)置 $x^{(k+1)} = x^{(k)} + \lambda_k p_k$ ，计算 $f(x^{(k+1)})$
当 $\lVert f(x^{(k+1)})-f(x^{(k)}) \rVert < \varepsilon$ 或 $\lVert x^{(k+1)} - x^{(k)} \rVert < \varepsilon$ 时，停止迭代，令 $x^* = x^{(k+1)}$ 。
(5)否则，置 $k = k + 1$ ,转(3)。

当目标函数是凸函数时，梯度下降法的解是全局最优解。一般情况下，其解不保证是全局最优解。梯度下降法的收敛速度也未必是很快的。

数据来源：统计学习方法(第二版)

三维虫子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法--梯度下降法

与公众号同步更新，详细内容及相关ipynb文件在公众号中，公众号：AI入门小白梯度下降法(gradient descent) 或最速下降法(steepest descent) 是求解无约束最优化问题的一种最常用的方法，具有实现简单的优点。梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。假设f(x)f(x)f(x)是RnR^nRn上具有一阶连续偏导数的函数。要求解的无约束最优化问题是min⁡x∈Rnf(x)(A.1)\min_{x \in R^n} f(x) \quad \tag{A.1}x
复制链接

扫一扫

专栏目录