梯度下降（Gradient Descent）（一）

最新推荐文章于 2022-11-22 16:06:23 发布

Pikachu5808

最新推荐文章于 2022-11-22 16:06:23 发布

阅读量555

点赞数 1

分类专栏：数学基础文章标签：梯度下降最速下降 Gradient Descent

本文链接：https://blog.csdn.net/u012294618/article/details/79286497

版权

数学基础专栏收录该内容

8 篇文章 1 订阅

订阅专栏

梯度下降法（gradient descent）或最速下降法（steepest descent）是求解无约束优化问题的一种最常用的方法，实现简单，属于一阶优化算法，也是迭代算法。

1.梯度

在微积分中，对多元函数的参数求偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数 $f(x,y)$ ，分别对 $x,y$ 求偏导数，求得的梯度向量就是 $(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})^T$ ，记为 $gradf(x,y)$ 或 $\nabla f(x,y)$ 。在点 $(x_0,y_0)$ 处的具体梯度向量就是 $(\frac{\partial f}{\partial x_0},\frac{\partial f}{\partial y_0})^T$ ，或 $\nabla f(x_0,y_0)$ 。
梯度向量的一般表示可以写成：

\nabla f (x 1, x 2, \dots, x n) = (\partial f \partial x 1, \partial f \partial x 2, \dots, \partial f \partial x n) T

$\nabla f(x_1,x_2,\dots,x_n)=(\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\dots,\frac{\partial f}{\partial x_n})^T$
从几何意义上讲，函数上某一点的梯度向量，就是函数变化增加最快的地方。具体来说，对于函数

f(x,y) f ( x , y ) $f(x,y)$ ，在点

(x0,y0) ( x 0 , y 0 ) $(x_0,y_0)$ 沿着梯度向量的方向，即

(∂f∂x0,∂f∂y0)T ( ∂ f ∂ x 0 , ∂ f ∂ y 0 ) T $(\frac{\partial f}{\partial x_0},\frac{\partial f}{\partial y_0})^T$ ，是

f(x,y) f ( x , y ) $f(x,y)$ 增加最快的地方。或者说沿着梯度向量的方向，更容易找到函数的极大值。反过来说，沿着梯度向量相反的方向，即

−(∂f∂x0,∂f∂y0)T − ( ∂ f ∂ x 0 , ∂ f ∂ y 0 ) T $-(\frac{\partial f}{\partial x_0},\frac{\partial f}{\partial y_0})^T$ ，

f(x,y) f ( x , y ) $f(x,y)$ 减少最快，更容易找到函数的极小值。

2.梯度下降

假设 $f(\boldsymbol x)$ 是 $\mathbf R^n$ 上具有一阶连续偏导数的函数，要求解的无约束最优化问题是：

m i n x \in R n f (x)

$\underset {\boldsymbol x \in \mathbf R^n}{min}\quad f(\boldsymbol x)$

x∗ x ∗ $\boldsymbol x^*$ 表示目标函数的极小点。下面我们考虑采用梯度下降法来求解这个问题。
根据上一节关于梯度的阐述，我们已经了解，负梯度方向是使函数值下降最快的方向，基于此，可以得到梯度下降法的原理：选取适当的初值

x0 x 0 $\boldsymbol x_0$ ，不断迭代，在迭代的每一步，以负梯度方向更新

x x $x$ 的值，进行目标函数的极小化，直到收敛。完整的算法描述如下：

输入：目标函数 $f(\boldsymbol x)$ ，计算精度 $\varepsilon$ ；
输出： $f(\boldsymbol x)$ 的极小值点 $\boldsymbol x^*$ ；
(1).取初始值 $\boldsymbol x^{(0)} \in \mathbf R^n$ ，置 $k=0$ ；
(2).计算 $f(\boldsymbol x^k)$ ；
(3).计算梯度 $\boldsymbol g_k$ ，若 $||\boldsymbol g_k|| < \varepsilon$ ，停止迭代，令 $\boldsymbol x^*=\boldsymbol x^{(k)}$ ；否则，转(4)；
(4).置 $\boldsymbol x^{(k+1)}=\boldsymbol x^{(k)}-\alpha \boldsymbol g_k$ ，计算 $f(\boldsymbol x^{(k+1)})$ ，当 $||f(\boldsymbol x^{(k+1)})-f(\boldsymbol x^{(k)})||<\varepsilon$ 或 $||\boldsymbol x^{(k+1)}-\boldsymbol x^{(k)}||<\varepsilon$ 时，停止迭代，令 $\boldsymbol x^*=\boldsymbol x^{(k)}$ ；否则，转(3)；

其中， $\alpha$ 是迭代步长，或称学习率（learning rate），在每次迭代中， $\alpha$ 是可变的。值得注意的是， $\alpha$ 的取值很有讲究，取值太大，容易跨过极小值点，取值太小，收敛太慢。因此，需不断测试，直至找到一个最合适的 $\alpha$ 。

下面我们用一张图来形象化地表述梯度下降法：

这里假设 $f$ 定义在平面上，并且函数图像是一个碗形。蓝色的曲线是等高线（水平集），即函数 $f$ 为常数的集合构成的曲线。红色的箭头指向该点梯度的反方向（一点处的梯度方向与通过该点的等高线垂直）。沿着梯度下降方向，将最终到达碗底，即函数 f <script type="math/tex" id="MathJax-Element-43">f</script>的极小值点。

3.特点和问题

特点

对输入向量进行归一化处理，可以让梯度下降更好更快地收敛；

问题：

只有当目标函数是凸函数时，梯度下降法的解是全局最优解，一般情况下，其解不保证是全局最优解；
靠近极小值时速度减慢；
如何确定学习率，可以参考这篇文章；

参考文献

[1] 《统计学习方法》
[2] https://baike.baidu.com/item/%E6%A2%AF%E5%BA%A6/13014729
[3] https://zhuanlan.zhihu.com/p/31074506
[4] http://blog.csdn.net/xiazdong/article/details/7950084
[5] https://www.cnblogs.com/pinard/p/5970503.html
[6] https://www.cnblogs.com/zhenggege/p/7210755.html
[7] https://www.zhihu.com/question/54097634
[8] https://www.cnblogs.com/keguo/p/6244253.html
[9] https://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95
以上为本文的全部参考文献，对原作者表示感谢。