理解梯度下降法

最新推荐文章于 2022-05-04 23:20:53 发布

火贪三刀

最新推荐文章于 2022-05-04 23:20:53 发布

阅读量4.2k

点赞数

分类专栏：机器学习文章标签：梯度下降法

本文链接：https://blog.csdn.net/shijing_0214/article/details/51124198

版权

机器学习专栏收录该内容

20 篇文章 5 订阅

订阅专栏

梯度下降法是求解无约束最优问题中常用到的一种学习方法，形式简单，属于一阶收敛，在空间进行线性搜索。在前面讲到的逻辑斯蒂回归模型中，就常用到梯度下降法来学习参数。
首先给出问题定义（统计学习方法附录A）：
假设f(x)是 $R^n$ 上具有一阶连续偏导的函数，求解的目标问题如下：

minx∈Rnf(x) $\mathop{min}\limits_{x\in R^n}f(x)$

$x^*$ 表示目标函数 $f(x)$ 的极小值点。
梯度下降法通过迭代的方法不断更新 $x$ 的值，直至 $x$ 离极小值点 $x^*$ 的距离满足条件。由于函数的负梯度方向是函数值下降最快的方向，因此梯度下降法选择在负梯度方向更新 $x$ 的值。

若第k次迭代时 $x$ 的值为 $x^{(k)}$ ，在该点处对 $f(x)$ 一阶泰勒展开，得到：

f(x)=f(x(k))+gTk(x−x(k)) $f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})$

其中， $g_k$ 为在 $x^{(k)}$ 点的梯度。有如下等式来对 $x^{(k+1)}$ 更新：

x(k+1)=x(k)+λkpk $x^{(k+1)}=x^{(k)}+\lambda_k p_k$

其中， $p_k=-g_k$ 是该点的负梯度，表示更新 $x$ 时的搜索方向； $\lambda_k$ 是步长，在梯度下降法使用中是最需要考虑的一个参数，要求：

f(x(k)+λkpk)=minλ≥0f(x(k)+λpk) $f(x^{(k)}+\lambda_k p_k)=\mathop{min}_{\lambda\ge0}f(x^{(k)}+\lambda p_k)$

在实际运用中最简单方法是通过多次实验选取最合适的步长作为定长来使用。
综上，梯度下降法的步骤如下：
（1）、取初始值 $x^{(0)}$ ，置k=0;
（2）、计算 $f(x^{(k)})$ ;
（3）、计算梯度 $g_k=g(x^{(k)})$ ，当 $||g_k||<\epsilon$ 时，说明已经收敛，停止迭代，记 $x^*=x^{(k)}$ ；否则，令 $p_k=-g_k$ ;
（4）、使用等式 $x^{(k+1)}=x^{(k)}+\lambda_k p_k$ 来更新 $x$ ，并求 $f(x^{(k+1)})$ ，当 $||f(x^{(k+1)})-f(x^{(k)})||<\epsilon$ 或 $||x^{(k+1)}-x^{(k)}||<\epsilon$ 时，停止迭代，记 $x^*=x^{(k+1)}$ ；
（5）、否则，置 $k=k+1$ ，转（3）。