共轭梯度法(Conjugate Gradient, CG)
适用情况: 无约束二次型优化问题
思想: 所谓共轭梯度法, 最大的优势就是每个方向都走到了极致, 也即是说寻找极值的过程中绝不走曾经走过的方向,那么
n
n
n维空间的函数极值也就走
n
n
n步就解决了。所谓的“不走曾经走过的方向”可以由下降的方向与走完这一步的误差向量正交来保证,进一步如果每一步走的方向都和上一步正交也就可以满足这样的要求。
推导:
设优化函数为
f
(
x
)
=
1
2
x
T
A
x
−
b
T
x
+
c
f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T A\mathbf{x}-\mathbf{b}^T\mathbf{x}+c
f(x)=21xTAx−bTx+c
其导数为:
d
f
(
x
)
d
x
=
A
x
−
b
\frac{d f(\mathbf{x})}{d \mathbf{x}}=A\mathbf{x}-\mathbf{b}
dxdf(x)=Ax−b
先假设优化过程中每一步的方向为
{
r
1
,
r
2
,
.
.
.
,
r
n
}
\{\mathbf{r}_1, \mathbf{r}_2,...,\mathbf{r}_n\}
{r1,r2,...,rn}其满足共轭正交
r
i
T
A
r
j
=
0
\mathbf{r}^T_i A\mathbf{r}_j=0
riTArj=0, 进一步假设最优解为
x
∗
\mathbf{x}^*
x∗。于是,存在一组不全为0的实数集合
{
α
1
,
α
2
,
.
.
.
,
α
n
}
\{\alpha_1, \alpha_2,...,\alpha_n\}
{α1,α2,...,αn}满足:
x
∗
=
∑
i
=
1
n
α
i
r
i
.
\mathbf{x}^*=\sum_{i=1}^n \alpha_i \mathbf{r}_i.
x∗=i=1∑nαiri.
对两边同时乘以
r
k
T
A
\mathbf{r}_k^TA
rkTA,有
r
k
T
A
x
∗
=
r
k
T
b
=
α
k
r
k
T
A
r
k
,
\mathbf{r}_k^TA\mathbf{x}^*=\mathbf{r}_k^T\mathbf{b}=\alpha_k \mathbf{r}_{k}^T A \mathbf{r}_k,
rkTAx∗=rkTb=αkrkTArk,
于是
α
k
=
r
k
T
b
r
k
T
A
r
k
\alpha_k=\frac{\mathbf{r}_k^T\mathbf{b}}{\mathbf{r}_{k}^T A \mathbf{r}_k}
αk=rkTArkrkTb
这也就是在
r
k
\mathbf{r}_k
rk这个方向上的步长。
接下来,构造向量集合
{
r
i
}
\{\mathbf{r}_i\}
{ri}, 这里利用的是施密特正交化方法:
r
k
=
−
∇
f
(
x
k
)
+
∑
i
<
k
r
i
T
A
∇
f
(
x
k
)
r
i
T
A
r
i
r
i
.
\mathbf{r}_k=-\nabla f(\mathbf{x}_k)+\sum_{i<k}\frac{\mathbf{r}_i^T A \nabla f(\mathbf{x}_k)}{\mathbf{r}_i^T A \mathbf{r}_i}\mathbf{r}_i.
rk=−∇f(xk)+i<k∑riTAririTA∇f(xk)ri.
算法的求解流程为:
x
1
→
∇
f
(
x
1
)
→
r
1
→
α
1
→
x
2
→
.
.
.
\mathbf{x}_1\to \nabla f(\mathbf{x}_1)\to \mathbf{r}_1\to\alpha_1\to \mathbf{x}_2\to...
x1→∇f(x1)→r1→α1→x2→...
算法:
参考资料:
https://zhuanlan.zhihu.com/p/55303668
https://zhuanlan.zhihu.com/p/64227658