梯度下降法与最速下降（凸优化方法）

最新推荐文章于 2025-04-18 12:15:36 发布

geter_CS

最新推荐文章于 2025-04-18 12:15:36 发布

阅读量5.1k

点赞数 9

分类专栏：深度学习机器学习强化学习文章标签：梯度下降最速下降正定二次型

本文链接：https://blog.csdn.net/geter_CS/article/details/85114840

版权

深度学习同时被 3 个专栏收录

23 篇文章

订阅专栏

机器学习

21 篇文章

订阅专栏

强化学习

10 篇文章

订阅专栏

梯度下降法：

假设目标优化形式为：
$argmin_xf(x)$
即我们要求取函数 $f (x)$ 的最小值，那么根据梯度下降法，可以如下算法：
$while||\bigtriangledown f(x_k)||\geq\epsilon$
　　　 $d_k=-\bigtriangledown f(x_k)$
　　　 $x_{k+1}=x_k+\alpha d_k$
　　　 $k = k + 1$
$e n d$
这里更新的方向是使用的梯度的反方向，因为梯度方向函数上升最快，所以其反向下降最快。在这里步长参数 $\alpha$ 尽量取小一点。
批量，随机梯度下降

最速下降法

最速下降法是梯度下降法的一种，它采用了当前“最好”的方向，和“最好”的步长因子。因为最好的方向就是梯度的反向，最好的步长因子满足 $\alpha_k=argmin_\alpha f(x_k+\alpha d_k)$ ,这个式子的意思是，根据当前方向 $d_k$ ，我们的步长 $\alpha$ 要使 $f (x)$ 下降到当前方向的最小值，也就是将这个方向走完。
那么 $\alpha_k$ 怎么求呢？很简单就是求极值点的过程，因为根据梯度下降算法在上式中 $x_k$ 和 $d_k$ 是已知的，所以我们就直接对 $f(x_k+\alpha d_k)$ 求 $\alpha$ 的导数，就行。比如 $f(x)=x^2$ ，则 $\frac{d f(x_k+\alpha d_k)}{d\alpha}=0$ 解得 $\alpha=-\frac{x_k}{d_k}$ 。
理论上，最速下降法只需要n步就可以得到目标值，n表示向量空间维度。比如我们使用 $f(x)=x^2$ 来计算 ${f(x)'}=2x$ 设 $x_1=m$ 则 $d_1=-2m$ $\alpha_1=-\frac{x_k}{d_k}=\frac{m}{2m}=\frac{1}{2}$ $x_2=m+\frac{1}{2}(-2m)=0$ ,由图像可知 $f(x)=x^2$ 的最小值点就在x=0处，所以使用最速下降法我们只使用2步就在二维面上找到了最值点。但是这个最值点可能是局部最优值。，所以最速下降法算法如下：
$while||\bigtriangledown f(x_k)||\geq\epsilon$
　　　 $d_k=-\bigtriangledown f(x_k)$
　　　 $\alpha_k=argmin_\alpha f(x_k+\alpha d_k)$
　　　 $x_{k+1}=x_k+\alpha_k d_k$
　　　 $k = k + 1$
$e n d$

自己的理解：最速下降法使用的相邻下降方向是正交的。在最速下降法中，当次迭代的梯度方向也是和上次迭代梯度方向垂直，但和再之前的梯度方向就不垂直了，所以会有“之”形路线。然后，共轭梯度法要求的是关于矩阵正交，并非直接正交。这是因为每一步都将一个方向走到最优，对于n维空间，那么只需走n步，每一步走的方向都是一个维度。（注意每一步走的方向所代表的维度不一定与坐标轴平行（我们这里说的维度不是坐标轴，是该空间的任何基中的一个方向空间的维数是什么）。但是每个方向之间一定要正交，所以表现出来共轭梯度只需要n步）

最速下降法用于正定二次型

什么是二次型,正定二次型？
设有一个正定二次型： $f(x)=\frac{1}{2}x^TAx+b^Tx+c$
我们使用最速下降法来求其最小值：
$min_x\frac{1}{2}x^TAx+b^Tx+c$
其一阶导数是： $g = A x + b$ 使用最速下降法更新公式为：
$x_{k+1}=x_k-\alpha_kg_k$
怎么求步长 $\alpha$ 呢？，由于最速下降法的连续两次搜索方向是正交的，即： $g_{k+1}^Tg_k=0$ 代入 $g_{k+1}=Ax_{k+1}+b=A(x_k-\alpha_kg_k)+b=Ax_k+b-A\alpha_kg_k=g_k-A\alpha_kg_k$
得到 $[g_k-\alpha_kAg_k]^Tg_k=0$
$(g_k^T-\alpha_kg_k^TA^T)g_k=0$
解出 $\alpha_k=\frac{g_k^Tg_k}{g_k^TAg_k}$
所以最速下降法应用到正定二次型上的更新公式是：
$x_{k+1}=x_k-\frac{g_k^Tg_k}{g_k^TAg_k}g_k$