梯度下降法

最新推荐文章于 2021-08-20 15:21:12 发布

置顶夜景黑色调

最新推荐文章于 2021-08-20 15:21:12 发布

阅读量199

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_42224488/article/details/116951396

版权

机器学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

简介：梯度下降法（gradient descent）或最速下降法（steepest descent）是求解无约束最优化问题的一种最常用的方法，具有实现简单的优点。梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。
假设 $f (x)$ 是 $R^n$ 上具有一阶连续偏导数的函数。要求解的无约束最优化问题是 $\underset{x\in{R^n}}{min}f(x)\tag {A.1}$
$x^*$ 表示目标函数 $f (x)$ 的极小点。
梯度下降法是一种迭代算法。选取适当的初值 $x^{(0)}$ ,不断迭代，更新 $x$ 的值，进行目标函数的极小化，直到收敛。 $\color{red}由于负梯度方向是使函数值下降最快的方向,$
$\color{red}在迭代的每一步，以负梯度方向更新x的值，从而达$
$\color{red}到减少函数值的目的。$
由于 $f (x)$ 具有一阶偏导数，若第 $k$ 次迭代值为 $x^{k}$ ，则可将 $f (x)$ 在 $x^{k}$ 附近进行一阶泰勒展开： $f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})\tag{A.2}$
这里， $g_k=g(x^{(k)})=\nabla f(x^{(k)})$ 为 $f (x)$ 在 $x^{(k)}$ 的梯度。
求出第 $k + 1$ 次迭代值 $x^{(k+1)}$ : $x^{k+1}\leftarrow x^{(k)}+\lambda_kp_k\tag{A.3}$
其中， $p_k$ 是搜索方向，取负梯度方向 $p_k=-\nabla f(x^{(k)})$ , $\lambda_k$ 是步长，由一维搜索确定，即 $\lambda_k$ 使得 $f(x^{(k)}+\lambda_kp_k)=\underset{\lambda\geq 0}{min}f(x^{(k)}+\lambda p_k)\tag {A.4}$
梯度下降法如下：
算法A.1（梯度下降法）
输入：目标函数 $f (x)$ ，梯度函数 $g(x)=\nabla f(x)$ ,计算精度 $\epsilon$ ；
输出： $f (x)$ 的极小点 $x^*$ 。
（1）取初始值 $x^{(0)}\in R^n$ ,置 $k = 0$ 。
（2）计算 $f(x^{(k)})$ 。
（3）计算梯度 $g_k=g(x^{(k)})$ ,当 $\lVert g_k\lVert<\epsilon$ 时，停止迭代，令 $x^*=x^{(k)}$ ;否则，令 $p_k=-g(x^{(k)})$ ，求 $\lambda_k$ ,使 $f(x^{(k)}+\lambda_kp_k)=\underset{\lambda\geq 0}{min}f(x^{(k)}+\lambda p_k)$
（4）置 $x^{(k+1)}=x^{(k)}+\lambda_kp_k$ ，计算 $f(x^{(k+1)})$
当 $\lVert f(x^{(k+1)})-f(x^{(k)})\lVert<\epsilon$ 或 $\lVert x^{(k+1)}-x^{(k)}\lVert<\epsilon$ 时，停止迭代，令 $x^*=x^{(x+1)}$ 。
（5）否则，置 $k = k + 1$ ,转（3）。
当目标函数是凸函数时，梯度下降法的解是全局最优解。一般情况下，其解不保证是全局最优解。梯度下降法的收敛速度也未必是很快的。

举例： $J(\theta)=\theta_1^2+\theta_2^2$
$\theta^0=(1,3)$ ,学习率 $\alpha=0.1$ ， $\nabla J(\theta)=(2\theta_1,2\theta_2)$
进行多次迭代：
$\theta^0=(1,3)$ ；
$\theta^1=\theta^0-\alpha \nabla J(\theta^0)$
$= (1, 3) - 0.1 (2, 6)$
$= (0.8, 2.4)$

$\theta^2=\theta^1-\alpha \nabla J(\theta^1)$
$= (0.8, 2.4) - 0.1 (1.6, 4.8)$
$= (0.64, 1.92)$
$. . . . . .$

摘录自《统计学习方法》

$\frac{\mathrm{d} y }{\mathrm{d} x}$

夜景黑色调

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法

简介：梯度下降法（gradient descent）或最速下降法（steepest descent）是求解无约束最优化问题的一种最常用的方法，具有实现简单的优点。梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。假设f(x)f(x)f(x)是RnR^nRn上具有一阶连续偏导数的函数。要求解的无约束最优化问题是minx∈Rnf(x)(行标)\underset{x\in{R^n}}{min}f(x)\tag {行标}x∈Rnminf(x)(行标)xk+1x^{k+1}xk+1f(x(k))f(x^
复制链接

扫一扫

专栏目录