优化算法中的最速下降法、共轭梯度法和牛顿法

YH美洲大蠊

于 2024-03-09 19:35:55 发布

阅读量1.7k

点赞数 20

文章标签：机器学习

本文链接：https://blog.csdn.net/YHKKun/article/details/136588907

版权

本文对比了最速下降法、共轭梯度法和牛顿法三种优化算法，分别从搜索方向选择、收敛速度、计算复杂度及适用场景等方面进行了阐述，强调了它们在解决无约束优化问题中的特点和局限性。

摘要由CSDN通过智能技术生成

最速下降法、共轭梯度法和牛顿法都是基于迭代和梯度信息的优化算法，用于求解无约束优化问题。

1. 最速下降法（Steepest Descent Method）

最速下降法是一种基于梯度信息的优化算法。在每一步迭代中，它选择负梯度方向作为搜索方向，因为负梯度方向是函数值下降最快的方向。然后，通过线搜索确定在该方向上的步长，并更新当前点。虽然最速下降法实现简单，但在某些情况下可能收敛速度较慢，尤其是在接近最优解时。

假设目标函数为 $f(\mathbf{x})$ ，其中 $\mathbf{x} \in \mathbb{R}^n$ 。在迭代点 $\mathbf{x}_k$ ，梯度为 $\nabla f(\mathbf{x}_k)$ 。则搜索方向为：
$\mathbf{d}_k = -\nabla f(\mathbf{x}k)$
然后，通过线搜索确定步长 $\alpha_k$ ，更新迭代点：
$\mathbf{x}_{k+1} = \mathbf{x}_k + \alpha_k \mathbf{d}_k$

2. 共轭梯度法（Conjugate Gradient Method）

共轭梯度法是一种介于最速下降法和牛顿法之间的方法，它结合了最速下降法的简单性和牛顿法的快速收敛性。共轭梯度法利用目标函数的梯度信息来构造共轭方向，并沿着这些方向进行搜索。与最速下降法不同，共轭梯度法在选择搜索方向时考虑了之前迭代的信息，从而避免了在相同方向上的重复搜索。对于二次型函数，共轭梯度法具有有限步收敛性。在实际应用中，共轭梯度法常用于求解大型稀疏线性方程组。

对于线性方程组 $\mathbf{Ax} = \mathbf{b}$ ，或者等价的优化问题 $\min_{\mathbf{x}} \frac{1}{2}\mathbf{x}^T\mathbf{Ax} - \mathbf{b}^T\mathbf{x}$ ，共轭梯度法的迭代格式为：

初始化： $\mathbf{x}_0$ 为任意向量， $\mathbf{r}_0 = \mathbf{b} - \mathbf{Ax}_0$ ， $\mathbf{p}_0 = \mathbf{r}_0$
迭代：对于 $k = 0, 1, 2, \ldots$
计算步长： $\alpha_k = \frac{\mathbf{r}_k^T\mathbf{r}_k}{\mathbf{p}_k^T\mathbf{Ap}_k}$
更新解： $\mathbf{x}_{k+1} = \mathbf{x}_k + \alpha_k\mathbf{p}_k$
更新残差： $\mathbf{r}_{k+1} = \mathbf{r}_k - \alpha_k\mathbf{Ap}_k$
计算共轭方向(Fletcher-Reeves 公式)： $\beta_{k+1}^{FR} = \frac{\mathbf{r}^T_{k+1}\mathbf{r}_{k+1}}{\mathbf{r}_k^T\mathbf{r}k}$ ， $\mathbf{p}_{k+1} = \mathbf{r}_{k+1} + \beta_{k+1}^{FR}\mathbf{p}_k$

3. 牛顿法（Newton's Method）

牛顿法是一种基于二阶导数信息的优化算法。它利用目标函数的Hessian矩阵（二阶导数矩阵）来构造搜索方向，并通过求解线性方程组来确定步长。牛顿法的优点是收敛速度快，尤其是在接近最优解时。然而，它的缺点是需要计算和存储Hessian矩阵，这在处理大规模问题时可能非常昂贵。此外，当Hessian矩阵不正定时，牛顿法可能无法收敛到最优解。

对于无约束优化问题 $\min_{\mathbf{x}} f(\mathbf{x})$ ，牛顿法的迭代格式为：

计算梯度： $\nabla f(\mathbf{x}_k)$
计算Hessian矩阵： $\nabla^2 f(\mathbf{x}_k)$ （或其近似）
求解线性方程组： $\nabla^2 f(\mathbf{x}_k)\mathbf{d}_k = -\nabla f(\mathbf{x}_k)$ 得到搜索方向 $\mathbf{d}_k$
通过线搜索或固定步长确定 $\alpha_k$ ，更新迭代点： $\mathbf{x}_{k+1} = \mathbf{x}_k + \alpha_k\mathbf{d}_k$