【数学与算法】步长一维搜索、梯度下降法、最速下降法、牛顿法

Mister Zhu

已于 2022-04-14 00:11:01 修改

阅读量1.2w

点赞数 13

分类专栏：数学和算法文章标签：算法

于 2021-12-24 16:40:53 首次发布

本文链接：https://blog.csdn.net/u011754972/article/details/122126540

版权

数学和算法专栏收录该内容

41 篇文章

订阅专栏

更详细的推导，可以参考这篇博客：一维搜索、最速下降（梯度下降）与牛顿法（拟牛顿法）

`1.求解最优步长的方法：`

在这里插入图片描述

$f (x)$ 可以理解为目标函数，损失函数。我们的目标是最小化这个损失函数，最小化大多通过迭代得到，那么每一步迭代更新的步长也很重要，知道每一点的函数值下降最快的方向后(负梯度方向)，还需要选取最优的步长，可以使得损失函数每一步迭代下降更快。
如果我们不想求解最优步长，那么就只需要设定固定步长即可，但是这样做的话，迭代更新较慢，也有可能取不到(全局或局部)最优解，而是在最优解附近。后面的例子，我们会讨论固定步长的劣势。

每一步的最优步长 $\lambda{_k}$ 由求解式 $\color{red}\lambda{_k}=arg min f(x_k+λd_k)$ 得到，是一种精确步长的搜索方式。
即，由 $x_0$ 到 $x_1$ 的更新步长为 $\lambda{_0}$ ，由 $x_1$ 到 $x_2$ 的更新步长为 $\lambda{_1}$ ，… ，由 $x_{k-1}$ 到 $x_k$ 的更新步长为 $\lambda{_{k-1}}$ 。

$d_k$ 是在 $x_k$ 点时的搜索方向，如果是梯度下降法时，我们的方向就变成了 $d_k =−∇f(x_k)$ ，(梯度方向是函数值增长最快的方向，梯度下降就是负梯度方向，即函数值减小最快的方向)。
求解这个式子，就需要把 $f(x_k+λd_k)$ 看做是 $\lambda$ 的函数，令： $\color{red}g(\lambda)=f(x_k+λd_k)$
那么 $f(x_k+λd_k)$ 取极小值，就是 $\color{red}g'(\lambda)=0$ 时，求解 $\lambda$ 。
由于 $f(x),x_k，∇f(x_k)$ 已知，所以 $f'(x_k+λd_k)$ 中只有 $\lambda$ 一个未知数，那么
$\color{red}g'(\lambda)=f'(x_k+λd_k)=0$
可以求解出 $\lambda$ 。

`例子：`

一维度函数 $\color{red}f(x)=(x+1)^2$ ,在初始值 $x_0=0$ 时，梯度即一阶导
$\nabla{f(x_0)}=2x_0+2=2$
$d_0=-\nabla{f(x_0)}=-2$
$\begin {aligned} f(x_{1})&=f(x_0+\lambda{d_0})\\ &=(x_0+\lambda{d_0}+1)^2 \\ &=(1-2{\lambda})^2\\ \end {aligned}$

$f'(x_0+\lambda{d_0})=2(1-2{\lambda})*(-2)=0$
解得： $\color{red}\lambda =0.5$ ，从而得到了 $x_0$ 到 $x_1$ 的最优步长。
那么就可以求得 $x_1=x_0+λd_0=0+0.5*(-2)=-1$
这就是迭代。
继续下一次迭代：
$x_1=-1,\nabla{f(x_1)}=0,d_1=0$ ，那么
$x_1=x_0+\lambda *d_1=x_0+\lambda*0=x_0$
我们看到， $\color{red}x_1=x_0$ ，就是说，下一次更新的点还在 $x_0$ 就是没更新了，在看前面在 $x_1$ 处的梯度 $\color{red}\nabla{f(x_1)}=0$ ，就是不会再更新了，已经找到了最优点，就是 $x_1=-1$ 。到这里，仅仅做了一次迭代就达到了最优点，是因为我这里设置的函数为二次多项式，比较简单，一次就能求出最优解。实际情况中其他比较复杂的函数不会这么一次就迭代完成。

我们验证一下， $x = - 1$ 是不是 $f(x)=(x+1)^2$ 的最小值点呢？
对 $f (x)$ 求导 $f^{'} (x) = 0$ ，解得 $x = - 1$ 。所以前面的迭代法求得的结果是准确的。

`最优步长` 对比 `固定步长`：

那么，如果我们在每个点 $x_k$ 处都设置固定步长为 $\lambda=0.1$ 的话，那么:
$x_1=x_0+\lambda*d_0=0+0.1*(-2)=-0.2$
$f(x_1)=(-0.2+1)^2=0.64$
比最优步长得到的函数值0还大很多，需要继续迭代：
$d_2=-1.6$
$x_2=x_1+\lambda*d_2=-0.2+0.1*(-1.6)=-0.36$
$f(x_2)=(-0.36+1)^2=0.64^2=0.4096$
$x_2=-0.36$ 处的损失函数值变成了0.4096进一步缩小，再往后迭代几次可能也得不到最优解 $x^*=-1$ ，而是在-1附近徘徊，我这里不再向后推算，明白原理即可，感兴趣的自己往后推算。

下面这个是最速下降法的性质，即前后两次迭代的梯度向量方向正交，并不是求解步长 $\lambda$ 。

根据求导公式， $y = f (a + b * x)$ 对 $x$ 求导，得到 $y^{'} = f^{'} (a + b * x) * (b * x)^{'}$ ，
即 $y^{'} = f^{'} (a + b * x) * b$
那么 $\color{red}g'(\lambda)=f'(x_k+λd_k)=0$ 是对 $\lambda$ 求导，则：
$g'(\lambda)=\nabla f(x_k+λ_kd_k)^T*d_k=0$
可得：
$\color{red}-\nabla f(x_{k+1})^T\nabla f(x_k)=0$

`2.梯度下降法和最速下降法：`

相同点：都是让迭代点沿着负梯度方向前进，保证函数的“最速”下降；

不同点：在于步长 $\lambda$ 的取值：

梯度下降法的步长 $\lambda$ 是定值,由工程师指定；
最速下降法的步长 $\lambda$ 是通过求解得到最优步长，它能使迭代更快收敛。

因此梯度下降法只是最速下降法中的一种特殊形式。

使用最速下降法得到的迭代路线往往是呈现一个之字形的走势。而当迭代点越靠近极小点，其移动的步长较小，严重影响到了收敛的速度。虽然从局部来看，每次选择的方向都是函数值下降最快的方向，但是从全局来看，锯齿现象导致当距离极小点较近时需要绕不少弯路才能收敛，反而收敛较慢。
因此，在计算的前中期使用梯度下降，而在接近极小点时使用其他算法进行迭代，会是更理想的方案。

`3.牛顿法迭代法:`

牛顿法迭代法：基本思想是利用二阶泰勒展开在极小点附近来近似目标函数，最终解出极小点的一个近似值。

`4.梯度下降法或牛顿法进行最优化的步骤：`

要最小化目标函数 $f(\vec{x})$ ,也就是要找到某个点 $\vec{x_k}$ 使得 $f(\vec{x})$ 最小，即 $f(\vec{x})$ 。

这里 $\vec{x_k}$ 头上打箭头表示 $x$ 是多维点，就是向量。因为实际问题中很少会是一维点的。

一般都是使用迭代法更新求最优值 $\vec{x^*}$ ：

`4.1.方法1：使用梯度下降法进行更新迭代：`

步骤1：给一个初始值 $\vec{x_0}$ ，和精度阈值 $\epsilon$ ，并令 $k = 0$ ;
步骤2：更新迭代计算：
如果步长 $\lambda$ 需要计算，就在这里进行计算，得到这一步迭代的最优步长；
计算梯度 $\nabla f(x_k)$ 后，按照下式进行迭代更新 $\vec{x}$ ：
$x_{k+1}=x_{k}-\lambda\nabla f(x_k)$
步骤3：判断迭代停止条件：
若梯度模 $||\nabla f(x_k)||< \epsilon$ ，(梯度特别小的点基本就是局部或者全局最优点)，则停止迭代。
梯度模是类似下面这样计算:

zhz:这里迭代停止条件也可以使用：1.连续10次更新得到的 $f(x_k)$ 差值 $||f(x_{k+1})-f(x_k)||< \epsilon$ ；2.达到多少次迭代后。
步骤4：另 $k = k + 1$ ，转至步骤2；

`4.2.方法2：使用牛顿法即二阶泰勒展开式更新迭代：`

步骤1：给一个初始值 $\vec{x_0}$ ，和精度阈值 $\epsilon$ ，并令 $k = 0$ ;
步骤2：更新迭代计算：
计算牛顿方向: - ${\nabla}^2 f(x_k)^{-1} \nabla f(x_k)$ 后，按照下式进行迭代更新 $\vec{x}$ ：
$x_{k+1}=x_{k}- {\nabla}^2 f(x_k)^{-1} \nabla f(x_k)$
或者也加上步长 $\lambda$ ,就变成了阻尼牛顿法，这里需要使用求解最优步长 $\lambda$ 的方法：
$x_{k+1}=x_{k}- \lambda{\nabla}^2 f(x_k)^{-1} \nabla f(x_k)$
步骤3：判断迭代停止条件：
梯度模是类似下面这样计算:

若梯度模 $||\nabla f(x_k)||< \epsilon$ ，(梯度特别小的点基本就是局部或者全局最优点)，则停止迭代。
zhz:这里迭代停止条件也可以使用：1.连续10次更新得到的 $f(x_k)$ 差值 $||f(x_{k+1})-f(x_k)||< \epsilon$ ；2.达到多少次迭代后
步骤4：另 $k = k + 1$ ，转至步骤2；

这里贴上阻尼牛顿法的更新步骤：

在这里插入图片描述

`4.3.比较两种方法的异同`

比较上面两种方法，步骤2开始使用不同方法来迭代更新。对于两种方法的迭代公式，可以看出，方法2牛顿法迭代公式中黑塞矩阵的逆 $\nabla^2f(x^k)^{-1}$ 相当于方法1梯度下降法迭代公式的步长 $\lambda$ ，这样两个公式就一样了。当然，我们也可以在方法2牛顿法中也加上步长 $\lambda$ ，这样，其实是由黑塞矩阵的逆 $\nabla^2f(x^k)^{-1}$ 和 $\lambda$ 共同决定。