梯度下降法 gradient descent

最新推荐文章于 2020-11-04 15:34:23 发布

chi_wawa

最新推荐文章于 2020-11-04 15:34:23 发布

阅读量2.6k

点赞数

分类专栏：机器学习文章标签：优化梯度下降机器学习统计

本文链接：https://blog.csdn.net/Chi_wawa/article/details/52739876

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

梯度下降法

也称为最速下降法(steepest descent)，用来求解无约束的最优化问题，有约束的最优化问题使用拉格朗日乘子法(lagrangian multiplier method)；梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。

目标函数f(x)，已知f(x)可导且有极小值，求解无约束条件下f(x)的极小值点 ${x^{\rm{*}}}$ ，及此时f(x)的极小值。
梯度下降法是一种迭代算法，首先选取初值 ${x^0}$ ，朝着使f(x)减小的方向不断迭代更新 $x$ ，直到f(x)收敛到极小值。这里的问题就变成了：如何迭代 $x$ 才使得f(x)不断逼近极小值，并使得f(x)下降得最快？

由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新 $x$ 的值，从而达到以最快速度减少函数值的目的。

f(x)关于 $x$ 的导数为 ${f^,}(x)= \frac{{df(x)}}{{dx}}$ ，若 $x$ 的第 $k$ 次迭代值为 ${x^k}$ ，在 ${x^k}$ 处的梯度为 $\nabla f({x^k}) = {f^,}({x^k})$ ，则 $x$ 的第 $k+1$ 次迭代值 ${x^{k + 1}}$ 为：

${x^{k + 1}}\leftarrow{x^k}+{\lambda _k}{P_k}$

其中 ${\lambda _k}$ 为步长或者学习率， ${P_k}$ 是在 ${x^k}$ 处的负梯度，即 $- \nabla f({x^k})$ 。步长 ${\lambda _k}$ 由一维搜索确定，即 ${\lambda _k}$ 使得

$f({x^k} + {\lambda _k}{P_k}) = \mathop {\min }\limits_{\lambda \ge 0} f({x^k} + \lambda {P_k})$

梯度下降法的步骤：

目标函数 $f(x)$ ， $f(x)$ 的梯度为 $g(x)=\nabla f(x)$ ，阈值 $\varepsilon$
置 $k=0$ ，取自变量初始值 $x^0\in {R^n}$
计算 $f(x^k)$
计算 $x^k$ 处的梯度 $\nabla f(x^k)$ ，若梯度小于阈值，即 $\left| {\nabla f({x^k})} \right|\prec\varepsilon$ ，则停止迭代，此时的 $x^k$ 即为所求的极小值点，否则根据迭代规则求 ${x^{k + 1}}\leftarrow{x^k}+{\lambda _k}{P_k}$ ，其中 ${P_k}=-\nabla f(x)$ ，接下来求 ${\lambda _k}$
$f({x^k} + {\lambda _k}{P_k}) = \mathop {\min }\limits_{\lambda \ge 0} f({x^k} + \lambda {P_k})$
已求得 $x^{k+1}$ ，计算 $f(x^{k+1})$ ，当在 $k$ 和 $k+1$ 处的函数值变化或者自变量的变化小于阈值，即当 $\left| {f({x^{k + 1}}) - f({x^k})} \right| \prec \varepsilon$ 或者 $\left| {{x^{k + 1}} - {x^k}} \right| \prec \varepsilon$ 时，停止迭代
否则，令 $k=k+1$ ，转到步骤3继续迭代