共轭梯度（凸优化方法）

最新推荐文章于 2024-04-14 08:10:46 发布

geter_CS

最新推荐文章于 2024-04-14 08:10:46 发布

阅读量1.7k

点赞数 3

分类专栏：深度学习机器学习强化学习文章标签：优化方法共轭梯度法

本文链接：https://blog.csdn.net/geter_CS/article/details/85103698

版权

深度学习同时被 3 个专栏收录

23 篇文章 4 订阅

订阅专栏

机器学习

21 篇文章 3 订阅

订阅专栏

强化学习

10 篇文章 3 订阅

订阅专栏

我们这里定义共轭梯度要解决的问题是一个正定二次型的最优化问题，

形式化为：

$min_xf(X)=\frac{1}{2}X^TAX-b^TX$

$X$ 是我们优化的参数向量， $A$ 是正定系数矩阵。

上面这个正定二次型导数（梯度）为：

$g ＝ A X - b$

因此此二次型取最小值时导数为0，即： $AX^*=b$

因此我们的目标就是通过共轭梯度求取 $X^*$

残差：在梯度下降法中，某一个更新方向会被更新多次，说明在一次更新中这个方向并没有被更新完，这个方向还存在残差，所以未来还会对这个方向进行更新。而在最速梯度下下降中就没有这个问题，因为它是更新一个方向就会直接更新到底。共轭梯度是一种类似于最速下降的方法，所以也分为两步：求步长，求更新方向。

定义第t次迭代时当前参数向量与最优参数向量之间的误差：

$e_t=X^*-X_t$

定义第t次迭代的残差为迭代解在方程中的偏差(梯度反方向)： $r_t=b-AX_t$ ,残差和误差之间的关系是： $r_t=b-AX_t=b-A(X^*-e_t)=Ae_t$ 由于残差的方向就是梯度的反方向，所以，梯度更新公式为： $X_{t+1}=X_t+\alpha_t r_t$

在共轭梯度中为了更新的方向明确，我们希望每次优化方向与误差方向正交，然后我们再控制每次更新的步长是使一次将一个方向更新完。这样我们需要更新的次数理论上就是向量空间的维数。

第一步我们来求一下步长：

同最速梯度下下降中一样，步长 $\alpha$ 满足：
$\alpha_t=argmin_\alpha f(X_t+\alpha_k r_t)$
也就是把 $X_t$ 和 $d_t$ 看做长数，对 $f(X_{t+1})$ 求 $\alpha$ 的导数，也就是在当前 $X_t$ 和更新方向 $d_t$ 下，找到函数极值，这样就可以把 $d_t$ 这个方向更新完全。 对 $\alpha$ 求导可得:
$\frac{df(X_t+\alpha_k r_t)}{d\alpha_t}=[A(X_t+\alpha_k r_t)-b]^Tr_t]=\alpha_kr_t^TAr_t-r_t^Tr_t=0$ 注意 $A$ 是正定系数矩阵，其转置为其本身。所以可以得到步长为：
$\alpha_t=\frac{r_t^Tr_t}{r^T_tAr_t}$
由此我们也可以使用迭代法来求下一个更新使用的残差项 $r_{t+1}$ , $r_{t+1}=b-AX_{t+1}=b-AX_{t}-\alpha Ar_{t}=r_t-\alpha Ar_t$
上面是最速下降的步长的求法，也可以看最速下降法用于正定二次型。
在最速下降法中，相邻的更新方向是互相垂直，在共轭梯度中我们是希望找一组互相垂直的方向来更新，每一次更新，都是更新这组相互正交的方向中一个，这样就不会重复更新某一个方向。

一种很好的想法就是，我们让这些更新互相正交的方向和误差也正交，这样每一次更新，就可以在一个维度上消除该维度上的误差,这样只需要空间的维数次更新就可以达到目标值。也就是我们希望：
$r_t^Te_{t+1}=0$ 但是其中 $e_{t+1}$ 是未知的，因为 $X^*$ 是未知的。
为了避免求 $e_{t+1}$ ，实际上我们是使用矩阵 $A$ 将误差向量 $e_{t+1}$ ，转化到A组成的列空间中，只要有优化方向与这个新向量正交就可以了，即： $r_t^TAe_{t+1}=0$ 此时 $r_t$ 与 $e_{t+1}$ 属于共轭正交。A就是轭。
我们来求共轭梯度的步长：
　　　　　　　　　　　　　　 $r_t^Te_{t+1}=0$
　　　　　　　　　　　　　　 $r_t^Te_{t+1}=r_t^TA[e_t+X_t-X_{t+1}]$
　　　　　　　　　　　　　　　　　 $=r_t^TA[e_t+\alpha_t r_t]$
　　　　　　　　　　　　　　　　　 $=r_t^TAe_t+\alpha_tr_t^TAr_t=0$
　　　　　　　　　　　　　　　　　解得：
　　　　　　　　　　　　　　 $\alpha_t=-\frac{r_t^TAe_t}{r_t^TAr_t}$
　　　　　　　　　　　　　　 $\alpha_t=-\frac{r_t^TA(X^*-X_t)}{r_t^TAr_t}$
由于梯度等于 $g_t＝AX_t-b$ ，且 $AX^*=b$ ，所以分子上的 $A(X^*-X_t)$ 展开得到： $b-(g_t+b)=g_t$ 所以最终步长为： $\alpha_t=-\frac{r_t^Tg_t}{r_t^TAr_t}$ ，这样我们就把 $e_t$ 消除了。

求方向：

下面我们来求更新方向：寻找一组关于A的正交基(因为更新方向为了消除 $e_t$ ,已经与 $e_t$ 关于 $A$ 共轭正交，所这组正交基也是关于 $A$ 正交的)，首先，假设我们有一组关于解空间的线性无关的基，记为 $u_1,u_2,...u_n$ ，那么我们可以根据这一组基，通过Gram-Schmidt正交变化求得一组关于A的正交基 $d_1,d_2...d_n$ 。过程如下，首先，令 $d_1=u_1$ ,然后对于 $d_2$ ,我们去掉和第一个向量共线的部分，去掉的比例是 $\beta_{21}$ $d_2=u_2+\beta_{21}d_1$ ,然后对于 $d_3$ ,我们去掉和第一、第二个向量共线的部分，去掉的比例是 $\beta_{31}，\beta_{32}$ $d_3=u_3+\beta_{31}d_1+\beta_{32}d_2$ ….对于 $d_n$ ,我们去掉和第一、第二 … 个向量共线的部分，去掉的比例是 $\beta_{n1}，\beta_{n2}......$ 所以有 $d_n=u_n+\beta_{n1}d_1+\beta_{n2}d_2$
即 $d_n=u_n+\sum_{k=1}^{n-1}\beta_{n,k}d_k$ 咋么求这些系数呢，由于关于正交，所以有： $d_n^TAd_j=u^T_nAd_j+\sum_{k=1}^{n-1}\beta_{n,k}d_k^TAd_j=u^T_nAd_j+\beta_{nj}d_{j}^TAd_j=0(这里由于正交消除很多项)$ 解出 $\beta_{nj}=-\frac{u^T_nAd_j}{d^T_jAd_j}$
注意这里只求出 $d_n$ 中对于 $d_j$ 的系数，还有n-3个系数。所以求系数要用很多计算资源。算法复杂度为 $O(N^2)$ 。
在共轭梯度中我们将残差作为Gram-Schmidt正交变化的输入，也就是 $d_1=r_1$ ，然后计算步长 $\alpha_1$ 更新 $X$ 得到 $X_2$ ，再计算 $r_2$ ，和 $d_2$ , $\alpha_2$ …就这样不断进行下去，直至收敛，这就是整个共轭梯度算法。