共轭梯度法（CG）详解

陆嵩

已于 2022-07-26 03:07:54 修改

阅读量1w

点赞数 15

分类专栏：数学原理计算数学数据科学与人工智能文章标签：线性代数共轭梯度 CG PR 最速下降

于 2022-05-26 17:12:54 首次发布

本文链接：https://blog.csdn.net/lusongno1/article/details/124988357

版权

计算数学同时被 3 个专栏收录

167 篇文章

订阅专栏

数学原理

116 篇文章

订阅专栏

数据科学与人工智能

57 篇文章

订阅专栏

共轭梯度法（CG）详解

这篇文章写得不错，建议收藏。想要了解 CG，把它认认真真读一遍，就很清楚了。

文章目录

- 共轭梯度法（CG）详解

之前写过几个关于共轭梯度法的注记，譬如：

但事实上很多人反应，看得一头雾水，基于此，本篇文章旨在对于共轭梯度方法从优化的角度给一个干净的描述。

线性共轭梯度法

线性共轭梯度方法是 Hestenes 和 Stiefel 在 20 世纪 50 年代提出来的的一个迭代方法，用于求解正定系数矩阵的线性系统。
假定 $A$ 是对称正定的矩阵，求解线性方程组
$A x = b$
等价于求解如下凸优化问题：
$\min \phi(x) \equiv \frac{1}{2} x^{T} A x-b^{T} x$
该问题的梯度便是原线性系统的残差，
$\nabla \phi(x)=A x-b \equiv r(x)$
在 $x=x_k$ 点， $r_{k}=A x_{k}-b$ 。

共轭方向

定义对于非零向量集合 $\left\{p_{0}, p_{1}, \cdots, p_{t}\right\}$ 关于对称正定矩阵 $A$ 是共轭的，若
$p_{i}^{T} A p_{j}=0, \quad \text { for all } i \neq j .$

容易证明，共轭向量之间是线性独立的。

假设已经有了一组共轭向量，我们把未知量表示为它们的线性组合 $x=\sum_{i=1}^{n} \alpha^{i} p_{i}$ ，我们希望能够寻找一组系数，去极小化
$\phi(x)=\sum_{i=1}^{n} \left(\frac{\left(\alpha^{i}\right)^{2}}{2} p_{i}^{T} A p_{i}-\alpha^{i} p_{i}^{T} b\right)$
求和中的每一项都是独立的，极小化之，那么我们就可以得到
$\alpha^{i}=\frac{p_{i}^{T} b}{p_{i}^{T} A p_{i}}$

通过共轭方向，把一个 n 维问题，拆解成了 n 个一维问题。

从矩阵的角度来看这个问题，我们把自变量做一个变换，
$\hat{x}=S^{-1} x$
其中， $S$ 由共轭向量张成，
$S=\left[p_{0}, p_{1}, \cdots, p_{n-1}\right]$
那么二次问题变为，
$\hat{\phi}(\hat{x}) \equiv \phi(S \hat{x})=\frac{1}{2} \hat{x}^{T}\left(S^{T} A S\right) \hat{x}-\left(S^{T} b\right)^{T} \hat{x}$
由共轭性，我们知道矩阵 $S^{T} A S$ 是个对角矩阵，那么久变成了一个对角矩阵系数的极简方程。

共轭方向法

所谓的共轭方向法，就是给定初值点 $x_0$ 和一组共轭方向，我们通过如下方式迭代更新 $x_k$ ：
$x_{k+1}=x_{k}+\alpha_{k} p_{k}$
$\alpha_{k}=-\frac{r_{k}^{T} p_{k}}{p_{k}^{T} A p_{k}}$

1、这里的步长 $\alpha_k$ 是二次函数 $\phi$ 沿着 $x_{k}+\alpha p_{k}$ 的一维的极小化，我们一般称之为精确线搜索步长。
2、理论上，精确线搜索方法至多 n 步收到到线性系统的解。忽略证明。

对于共轭方向法来说，有如下定理。

定理： $x_{0} \in \Re^{n}$ 是任意起点， $\left\{x_{k}\right\}$ 通过共轭方向法生成，那么
$r_{k}^{T} p_{i}=0, \text { for } i=0,1, \cdots, k-1,$
且 $x_{k}$ 在集合
$\left\{x \mid x=x_{0}+\operatorname{span}\left\{p_{0}, p_{1}, \cdots, p_{k-1}\right\}\right\} .$
上，关于 $\phi(x)=\frac{1}{2} x^{T} A x-b^{T} x$ 的极小化。

CG 方法

共轭方向法的共轭方向如何得到呢？共轭梯度方法（Conjugate Gradient，CG）方法是一个特别的共轭方向法：它的共轭方向是在 $x_k$ 的迭代中一个一个生成出来的，并且 $p_k$ 的计算只用到 $p_{k-1}$ 。

它的思想在于，选取当前共轭方向为负梯度方向和前一个共轭方向的线性组合，
$p_{k}=-r_{k}+\beta_{k} p_{k-1}$
将其左乘 $p_{k-1}^{T} A$ ，由 $p_k$ 与 $p_{k-1}$ 的共轭性，可以得到组合系数：
$\beta_{k}=\frac{r_{k}^{T} A p_{k-1}}{p_{k-1}^{T} A p_{k-1}}$
在这个过程中，选择 $p_0$ 为 $x_0$ 处负梯度方向，结合前面的介绍，就可以得到线性共轭梯度方法。
在这里插入图片描述

注意到梯度和共轭方向的一些关系：
$\begin{aligned} r_{k}^{T} r_{i} &=0, \quad \forall i=0, \cdots, k-1 \\ \operatorname{span}\left\{r_{0}, r_{1}, \cdots, r_{k}\right\} &=\operatorname{span}\left\{r_{0}, A r_{0}, \cdots, A^{k} r_{0}\right\} \\ \operatorname{span}\left\{p_{0}, p_{1}, \cdots, p_{k}\right\} &=\operatorname{span}\left\{r_{0}, A r_{0}, \cdots, A^{k} r_{0}\right\} \\ p_{k}^{T} A p_{i} &=0, \quad \forall i=0,1, \cdots, k-1 . \end{aligned}$
通过一些简单的推导，替换掉 CG 算法中的一些表达，就得到了如下的 CG 方法的更加经济的实用形式，

在这里插入图片描述

收敛率

定义条件数：
$\kappa(A)=\|A\|_{2}\left\|A^{-1}\right\|_{2}=\frac{\lambda_{n}}{\lambda_{1}}$
那么，CG 的收敛率可以表达为：
$\left\|x_{k}-x^{*}\right\|_{A} \leq 2\left(\frac{\sqrt{\kappa(A)}-1}{\sqrt{\kappa(A)}+1}\right)^{k}\left\|x_{0}-x^{*}\right\|_{A}$

由表达式可以看出，当 $A$ 条件数很大的时候，前面的系数趋近于 1，收敛速度无法保证。

预条件

所谓的预条件，就是希望对矩阵 $A$ 做一个改造，改进特征值分布，让它的条件数小一些。

具体地，引入一个非奇异矩阵 $C$ ，做变量替换，
$\hat{x}=C x .$
二次问题就变为了，
$\hat{\phi}(\hat{x})=\frac{1}{2} \hat{x}^{T}\left(C^{-T} A C^{-1}\right)^{-1} \hat{x}-\left(C^{-T} b\right)^{T} \hat{x}$
其对应的线性系统是，
$\left(C^{-T} A C^{-1}\right) \hat{x}=C^{-T} b$
我们要做的，就是找一个逆比较好求的 $C$ ，使得 $C^{-T} A C^{-1}$ 特征值分布更集中。落实到实用算法上，得到：