共轭梯度法精讲-CSDN博客

本文链接：https://blog.csdn.net/weixin_37895339/article/details/84640137

共轭梯度法是一种经典的优化算法。算法求解速度较快，虽然比梯度下降法复杂，但是比二阶方法简单。

一、引入

1. 优化模型建立

假定待优化的问题如下所示：
$\min_{x} f(x)=\frac{1}{2}x^TAx - b^Tx$
其中 $x$ 为待优化变量， $A$ 为半正定矩阵（在线性代数中，正定矩阵为对称矩阵）， $b$ 为已知变量。下标k表示优化步数，负梯度为
$r_k =-( Ax_k -b)$
假设最优变量为 $x^*$ ，则优化问题可变为求方程 $Ax^*=b$ 的解。梯度 $r$ 也可以称作每一步的残差。误差定义为 $x$ 与最优变量的差值
$e_k = x^* - x_k$

2. 算法思想简述

虽然梯度下降法的每一步都是朝着局部最优的方向前进的，但是它在不同的迭代轮数中会选择非常近似的方向，说明这个方向的误差并没通过一次更新方向和步长更新完，在这个方向上还存在误差，因此参数更新的轨迹是锯齿状。共轭梯度法的思想是，选择一个优化方向后，本次选择的步长能够将这个方向的误差更新完，在以后的优化更新过程中不再需要朝这个方向更新了。由于每次将一个方向优化到了极小，后面的优化过程将不再影响之前优化方向上的极小值，所以理论上对N维问题求极小只用对N个方向都求出极小就行了。为了不影响之前优化方向上的更新量，需要每次优化方向共轭正交。假定每一步的优化方向用 $p_k$ 表示，可得共轭正交
$p_iAp_j = 0 \qquad i\ne j$
由此可得，每一步优化后，当前的误差和刚才的优化方向共轭正交。
$p_kAe_{k+1}=0$
若为N维空间优化问题，则每次优化方向可以组成这个空间中的一组基底。 $P=\{p_1,p_2,\dots,p_N\}$

二、算法推导

算法只需要解决两个问题：

优化方向
优化步长

1.优化方向确定

假定第一次优化方向为初始负梯度方向
$p_1 = r_1 = b-Ax_1$
每一次优化方向与之前的优化方向正交，采用Gram-Schmidt方法进行向量正交化，每次优化方向根据当前步的梯度得出
$p_k = r_k-\sum_{i<k}\frac{p_i^TAr_k}{p_i^TAp_i}p_i$
便于后面证明，令 $\beta_i=\frac{p_i^TAr_k}{p_i^TAp_i}$
上式在后面还会进一步优化，省去求和符号。

2.优化步长的选取

假定第k步的优化步长为 $\alpha_k$ 。

方法一：

$f(x_{k+1})=f(x_k+\alpha_kp_k)=g(\alpha_k)$ ，对 $\alpha_k$ 求导令导数为0可得 $\alpha_k=\frac{p_k^Tr_k}{p_k^TAp_k}$ 。

方法二：
$\begin{aligned} p_k^TAe_{k+1}&=p_k^TA(x^*-x_{k+1})\\ &=p_k^TA(x^*-x_k+x_k-x_{k+1})\\ &=p_k^TA(e_k-\alpha_kp_k)\\ &=p_k^TAe_k-\alpha_kp_k^TAp_k=0 \end{aligned}$
可得
$\begin{aligned} \alpha_k&=\frac{p_k^TAe_k}{p_k^TAp_k}\\ &=\frac{p_k^TA(x^*-x_k)}{p_k^TAp_k}\\ &=\frac{p_k^T(Ax^*-Ax_k)}{p_k^TAp_k}\\ &=\frac{p_k^T(b-Ax_k)}{p_k^TAp_k}\\ &=\frac{p_k^Tr_k}{p_k^TAp_k}\\ \end{aligned}$
上式在后文还会进一步化简。

三、三个推论

1.推论一

第k步计算的梯度 $r_k$ 和前k-1步的优化向量 ${p_i\}_{i=1}^{k-1}$ 正交。

证明：
当 $i < j$
$\begin{aligned} p_i^Tr_j &=p_i^T(Ax_j-b) \\ &=p_i^T(Ax_j-Ax^*)\\ &=p_i^TAe_j\\ &=p_i^TA(e_{i+1}-\sum_{k=1}^{j-1}\beta_kp_k)\\ &=0 \end{aligned}$

2.推论二

第k步计算的梯度 $r_k$ 和前k-1步的梯度 ${r_i\}_{i=1}^{k-1}$ 正交。

证明：
当 $i < j$
$\begin{aligned} r_i^Tr_j=(p_i+\sum_{k=1}^{i-1}\beta_kp_k)r_j=0 \end{aligned}$

3.推论三

第k步计算的梯度 $r_k$ 和前k-2步的优化向量 ${p_i\}_{i=1}^{k-2}$ 共轭正交。

证明：
$\begin{aligned} r_{j+1}^Tr_i&=(b-Ax_{j+1})^Tr_i\\ &=(b-A(x_j+\alpha_jp_j))^Tr_i\\ &=(b-Ax_j-\alpha_j Ap_j)^Tr_i\\ &=(r_j-\alpha_jAp_j)^Tr_i\\ &=r_j^Tr_i-\alpha_jp_j^TAr_i \end{aligned}$
当 $j = i - 1$ 时， $p_j^TAr_i\ne 0$ 。

当 $j + 1 < i$ 时， $p_j^TAr_i= 0$ 。

四、最终简化

算法在三中基本推导完毕，但是在工程应用中如果每次进行 $p_k$ 的正交化需要对之前所有的优化向量求解 $\beta$ ，现简化如下：

1. 优化方向简化

由推论三可得
$\begin{aligned} p_{k+1}&=r_{k+1}-\frac{p_k^TAr_{k+1}}{p_k^TAk_k}p_k\\ &=r_{k+1}-\frac{(Ap_k)^Tr_{k+1}}{(Ap_k)^Tp_k}p_k\\ &=r_{k+1}-\frac{(\frac{r_{k}-r_{k+1}}{\alpha})^Tr_{k+1}}{(\frac{r_{k}-r_{k+1}}{\alpha})^Tp_k}p_k\\ &=r_{k+1}-\frac{(\frac{r_{k}-r_{k+1}}{\alpha})^Tr_{k+1}}{(\frac{r_{k}-r_{k+1}}{\alpha})^T(r_k-\beta_{k-1}p_{k-1})}p_k\\ &=r_{t+1}+\frac{r_{k+1}^Tr_{k+1}}{r_k^Tr_k}p_k \end{aligned}$

2. 步长简化

第三个等式引用推论一
$\begin{aligned} \alpha_k &= \frac{p_k^Tr_k}{p_k^tAp_k}\\ &=\frac{(r_k-\beta_{k-1}p_{k-1})^Tr_k}{p_k^tAp_k}\\ &=\frac{r_k^Tr_k}{p_k^TAp_k^T} \end{aligned}$

3. 梯度计算简化

$\begin{aligned} r_{k+1}&=b-Ax_{k+1}\\ &=b-A(x_k+\alpha_kp_k)\\ &=b-Ax_k-\alpha_kAp_k\\ &=r_k-\alpha_kAp_k \end{aligned}$

最终的推导结束。整理为如下的伪代码

五、伪代码

$r_0=b-Ax_0$
$p_0=r_0$
k=0
while
　 $\alpha_k=\frac{r_k^Tr_k}{p_k^TAp_k}$
　 $x_{k+1}=x_k+\alpha_kp_k$
　 $r_{k+1}=r_k-\alpha_kAp_k$
　if $r_{k+1}$ < $\epsilon$ : break
　 $\beta_{k+1}= \frac{r_{k+1}^Tr_{k+1}}{r_k^Tr_k}$
　 $p_{k+1}=r_{k+1}+\beta_kp_k$
　 $k = k + 1$
return $x_{k+1}$