最速下降法steepest descent详细解释

最新推荐文章于 2025-03-16 08:17:42 发布

微电子学与固体电子学-俞驰

最新推荐文章于 2025-03-16 08:17:42 发布

阅读量1w

点赞数 5

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/appleyuchi/article/details/97617262

版权

机器学习算法专栏收录该内容

87 篇文章

订阅专栏

本文深入探讨了最速下降法的原理与应用，包括梯度下降法与最速下降法的区别，以及Armijo-Goldstein法则和Wolfe-power法则在算法中的作用。通过详细推导和实例计算，展示了最速下降法的迭代过程与收敛特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

----------------------先闲聊几句------------------------------------
[1]首次提出了梯度下降法和最速下降法，既然柯西写出来了，所以这两个算法肯定不个一个东西,它们的区别是学习率是否恒定。
[4]提出了GoldStein法则

Wolfe准则以及Goldstein
[5][8]给出了具体的代码实现,
[6][7]中给出了手算steepest descent的例子

梯度的定义:
$grad\ f(x,y,z)=\frac{\partial f}{\partial x}\vec{i}+\frac{\partial f}{\partial y}\vec{j}$

然后稍微整理下目前学过的凸优化的一些方法:
1.steepest descent(默认无约束凸优化,使用欧式范数就是梯度下降,使用Hessian范数就是牛顿法,参考[10])
2.牛顿法(二阶牛顿法求最小值,多维即可涉及Hessian矩阵,计算量巨大,备受吐槽)
3.拟牛顿法(DFP、BFGS、L-BFGS)
4.共轭梯度法

而且Armijo-Goldstein法则和Wolfe-power法则的应用則是包含在上述算法的line-search環節中的
这篇博文是对[2]里面的内容进行进一步详细的阐述

--------------------闲谈结束,下面开始伪代码--------------------------
文的重点是描述steepest descent的原理细节.

首先是steepest descent算法伪代码[6]:
1.取初始点 $X^{(0)}$ ,容许误差(精度) $\epsilon>0,k:=0$
这里的:=符号的意思是"定义为"的意思.
2.计算 $p^{(k)}=-\triangledown f(X^{(k)})$
3.检验|| $p^{(k)}$ ||≤ $\epsilon$ ?若是迭代终止,取 $X^{*}=X^{(k)},$ 否则转4
4.求最有步长 $\lambda_k$ ,
$min_{\lambda≥0}f(X^{(k)}+\lambda_k p^{k})=f(X^{(k)}+\lambda_k p^{(k)})$ (一维搜索)
5.令 $X^{(k+1)}=X^{(k)}+\lambda_k p^{(k)},令k:=k+1,转2$
注意:
2中利用了一个结论:一维搜索最优解的梯度 $\triangledown f(X^{(k+1)})与搜索方向p^{(k)}正交①$
[10]中虽然有理论证明,这里我来一个几何上面的直观解释吧:
为什么是正交的呢?

在这里插入图片描述

下面的黑线部分是 $X^{(k)}$ ,
虚线部分是 $\lambda_kp^{(k)}$ ,
棕色线条的长度是 $\lambda_k,min_{\lambda≥0}f(X^{(k)}+\lambda_k p^{(k)})$
橙色的点是 $f (X) = 0$ 的坐标.

①中的结论等效于:
夹角多大的时候, $\lambda_k,min_{\lambda≥0}f(X^{(k)}+\lambda_k p^{(k)})$ 得到最小值?
讲人话就是,角度多大,橙色点到虚线距离最短?
显然你们都知道:
点(橙色点)到直线距离是垂直的时候,距离最短,
从而①结论得证.

#--------------------------------根据上面的正交结论来证明 $\lambda_k$ 的取值,证明过程来自[6]---------------------------------------------
证明以下结论:
$\lambda_k=\frac{g^{(k)T}p^{(k)}}{p^{(k)T}Qp^{(k)}}$

$f(X)=\frac{1}{2}X^TQX+b^TX+c$
准备工作:
令 $g^{(k)}$ $=\triangledown f(X^{(k)})$
$\triangledown f(X)=QX+b$
$X^{(k+1)}=X^{(k)}+\lambda_kp^{(k)}$
$\triangledown f(X^{(k+1)})^T p^{(k)}=0$
开始证明:
$g^{(k)}$
$=\triangledown f(X^{(k)})$
$QX^{(k)}+b$

$g^{(k+1)}$
$=\triangledown f(X^{(k+1)})$
$QX^{(k+1)}+b$
$=Q(X^{(k)}+\lambda_kp^{k})+b$
$=QX^{(k)}+b+\lambda_k Q p^{(k)}$
$=[QX^{(k)}+b]+\lambda_k Q p^{(k)}$
$=g^{(k)}+\lambda_kQp^{(k)}$

利用前面的结论:
$g^{(k+1)T}p^{(k)}$
$=(g^{(k)}+\lambda_kQp^{(k)})^Tp^{(k)}$
$=g^{(k)T}p^{(k)}+\lambda_kp^{(k)T}Qp^{(k)}$
$= 0$

得到:
$\lambda_k=-\frac{g^{(k)T}p^{(k)}}{p^{(k)T}Qp^{(k)}}$

------------------------下面是手算steepest descent案例,来自[6]------------------------------------
用最速下降法求 $f(X)=x_1^2+4x_2^2$ 的极小值点,
迭代两次. $X^{(0)}=(1,1)^T,\epsilon =10^{-4}$

当然了,因为整个式子就是两个平方项,我们可以一眼看出,最终结果 $X^{*}=(0,0)^T$
这里只是为了展示算法流程
求解:
$f(X)=\frac{1}{2}(2x_1^2+8x_2^2)=\frac{1}{2}X^TQX$

得到Q= $\left[ \begin{matrix} 2 & 0 \\ 0 &8 \end{matrix} \right]$
$g(X)=\triangledown f(X)=\left[ \begin{matrix} 2x_1 \\ 8x_2 \end{matrix} \right]$
第一次迭代
1.k=0
2. $p^{(0)}=-g^{(0)}=-\left[ \begin{matrix} 2 \\8 \end{matrix} \right]$

这里稍微说一下,这里为什盯着 $p^{(0)}$ 的长度作为迭代终止条件呢?
这个要根据算法第4步骤来理解,
因为如果收敛,也就是到等高线额谷底的话, $\lambda_kp^{(k)}$ 的数值肯定是很小的.
判断 $\lambda_kp^{(k)}$ 与判断 $p^{(k)}$ 的迭代终止效果应该是一致的.
$||p^{(0)}||=\sqrt{(-2)^2+(-8)^2}=\sqrt{68}$

4. $\lambda_0=-\frac{g^{(0)T}p^{(0)}}{p^{(0)T}Qp^{(0)}}=\frac{(2,8) \left[ \begin{matrix}2 \\ 8\end{matrix} \right]}{(2,8)\left[ \begin{matrix}2,0 \\0,8\end{matrix} \right]\left[ \begin{matrix} 2 \\8 \end{matrix} \right]}= \frac{68}{520}=0.13077$
5. $X^{(1)}=X^{(0)}+\lambda_0p^{(0)}=\left[ \begin{matrix} 1 \\1 \end{matrix} \right]-0.13077\left[ \begin{matrix} 2 \\8 \end{matrix} \right]=\left[ \begin{matrix} 0.73846 \\-0.04616 \end{matrix} \right]$

第二次迭代
1.k=1
2. $p^{(1)}=-g^{(1)}=-\left[ \begin{matrix} 1.47692 \\-0.39623 \end{matrix} \right]$
3.|| $p^{(1)}$ ||=1.52237
4. $\lambda_1=-\frac{g^{(1)}Tp^{(1)}}{p^{(1)T}Qp^{(1)}}=0.425$
5. $X^{(2)}=X^{(1)}+\lambda_1p^{(1)}=\left[ \begin{matrix} 0.73846 \\-0.04616 \end{matrix} \right]-0.425\left[ \begin{matrix} 1.47692 \\-0.39623 \end{matrix} \right]=\left[ \begin{matrix} 0.11076\\0.11076 \end{matrix} \right]$
k=2