Introduction to Optimization(三): 共轭梯度算法

最新推荐文章于 2023-11-03 11:45:25 发布

孤鸿子_

最新推荐文章于 2023-11-03 11:45:25 发布

阅读量1.1k

点赞数

分类专栏： math 文章标签：优化共轭梯度

本文链接：https://blog.csdn.net/dylan_frank/article/details/78270326

版权

math 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

基本概念

共轭：
$Q$ 是一个对称实矩阵，对于方向向量 $d_1,d_2,\dots d_m,\forall i\neq j,d_i^TQd_j =0$ 则他们关于 $Q$ 共轭
Q正定
如果对于矩阵 $Q,Q>0$ ,若一组向量 $d_1,d_2,\dots d_m,m\le n-1$ ,关于 $Q$ 共轭，则他们线性无关。(直接用定义可以证明)
内积空间
定义内积 $<d_i,d_j> = d_i^TQd_j$ 则这是一个欧氏空间，即他为我们提供了求线性无关组的共轭方向的算法。并且两组向量关于 $Q,Q>0$ 则他们在如上定义的内积空间中正交

基本共轭方向算法

对于 $n$ 维二次型函数

f (x x) = 1 2 x x T Q x x + x x T b Q = Q T, Q > 0

$f(\pmb x) = \frac{1}{2}\pmb x^T Q\pmb x + \pmb x^Tb\\ Q=Q^T,Q>0$
给定一组初始点

xx0,d0,d1,…,dn−1 $\pmb x_0,d_0,d_1,\dots,d_{n-1}$ , 其中

di $d_i$ 关于

Q $Q$ 共轭则有如下迭代法则:

g g k α k x x k + 1 = \nabla f (x x k) = Q x x k - b = - g g T k d d k d d T k Q d d k = x x k + α k d d k

$\begin{align} \pmb g_k &= \nabla f(\pmb x_k) = Q\pmb x_k - b\\ \alpha_k &= -\frac{\pmb g_k^T\pmb d_k}{\pmb d_k^TQ\pmb d_k}\\ \pmb x_{k+1} &= \pmb x_k + \alpha_k\pmb d_k \end{align}$
可以证明，对于

n $n$ 维二次型可以在

n $n$ 步以内收敛到最优解（定理10.1）

下面证明一个非常强的引理

引理1

在共轭方向算法中所有的 $k,0\le k\le n-1,0\le i\le k$ ,都有

g g T k + 1 d i = 0

$\pmb g_{k+1}^Td_i = 0$
这里写图片描述

由以上引理可以证明任意的 $\alpha_k$ ,满足

α k = arg m i n f (x x k + α k d d k)

$\alpha_k = \arg min f(\pmb x_k + \alpha_k \pmb d_k)$
设

ϕk(αk)=ϕk(xxk+αkddk) $\phi_k(\alpha_k) = \phi_k(\pmb x_k + \alpha_k \pmb d_k)$

d ϕ k d α k = \nabla f (x x k + α k d d k) T d k = g g T k + 1 d d k = 00

$\begin{align} \frac{d\phi_k}{d\alpha_k} &= \nabla f(\pmb x_k + \alpha_k \pmb d_k)^Td_k\\ &=\pmb g_{k+1}^T\pmb d_k\\ &=\pmb 0 \end{align}$
由于

ϕk $\phi_k$ 是关于

αk $\alpha_k$ 的凸二次函数，

ϕk $\phi_k$ 有唯一极小值点

共轭梯度算法

选择 $x_0$ , 计算 $d_0,g_0$
计算 $\alpha_k = -\frac{\pmb g_k^T\pmb d_k}{\pmb d_k^TQ\pmb d_k}$
计算 $\pmb x_{k+1} = \pmb x_k + \alpha_k\pmb d_k$
计算 $g_k$ 判断是否停止
计算 $\beta_k = \frac{\pmb g_{k+1}^TQ\pmb d_k}{\pmb d_k^TQ\pmb d_k}$
计算 $d_{k+1} = -g_{k+1}+\beta_k d_k$

可以利用归纳法证明，搜索方向 $d_0,d_1,\dots,d_{n-1}$ 是共轭方向
首先证明 $d_0^TQd_1=0$

d T 0 Q d 1 带 入 β 0 = d T 0 Q (- g 1 + β 0 d 0) = 0

$\begin{align} d_0^TQd_1&=d_0^TQ(-g_{1}+\beta_0 d_0)\\ 带入\beta_0\\ &=0 \end{align}$
这里写图片描述

非二次型问题中的共轭梯度

由于二阶导数计算相当费时，而 $Q$ 的计算只在 $\alpha,\beta$ 计算中出现，因此我们可以对其做一定的修正

alpha

$\alpha_k = f(\pmb x_k+\alpha \pmb d_k)$ 展开一维搜索

beta

Hestenes-Stiefel 公式
$x k + 1 两侧同时乘上 Q 减去 b ，得 g k + 1 Q d k = x k + α k d k = g k + α k Q d k 因此 = g k + 1 - g k α k$ $\begin{align} x_{k+1} &= x_k + \alpha_k d_k\\ 两侧同时乘上Q减去b，得\\ g_{k+1}&= g_{k} + \alpha_kQd_k 因此\\ Qd_k &= \frac{g_{k+1}-g_k}{\alpha_k} \end{align}$
替换 $beta$ 中的 $Qd_k$ 得到
$β k = g T k + 1 [ g k + 1 - g k ] d T k [ g k + 1 - g k ]$ $\beta_k = \frac{g_{k+1}^T[g_{k+1}-g_k]}{d_k^T[g_{k+1}-g_k]}$
P-R 公式
将H-S中的分母展开由引理 $g_{k+1}^Td_k=0$ ,在迭代等式 $d_k = -g_k + \beta_{k-1}d_{k-1}$ 左乘 $g_{k}^T$ ,可得
$g T k d k = - g T k g k + β k - 1 g T k d k - 1 = - g T k g k$ $g_{k}^Td_k=-g_k^Tg_k + \beta_{k-1}g_k^Td_{k-1} = -g_k^Tg_k$
带入得
$\beta_{k} = \frac{g_{k+1}^T[g_{k+1}-g_k]}{g_{k}^Tg_k}$
F-R修正
将P-R公式分子展开由引理的
$β k = g T k + 1 g k + 1 g T k g k$ $\beta_{k} = \frac{g_{k+1}^Tg_{k+1}}{g_k^Tg_k}$

Powell 证明用F-R公式计算 $\beta$ 共轭梯度算法性能比较突出.

代码实现

def cg_gradient(fun, grad, x0, args=(), g_args=(), tol=1e-8, max_iter=5000):
    alpha = lambda a, x_k, d: fun(*((x_k + a * d,) + args))
    g0 = grad(*((x0,) + g_args))
    d0 = -g0
    for _ in range(max_iter):
        a_k = minimize_scalar(alpha, bounds=(0, 100), args=(x0, d0), tol=1e-4)
        x0 = x0 + a_k.x * d0
        g_k = grad(*((x0,) + g_args))
        if is_stop(g_k, np.zeros(g_k.shape), tol):
            break
        beta = np.sum(g_k ** 2) / np.sum(g0 ** 2)  # Fletcher-Reeves 公式
        g0 = g_k
        d0 = -g_k + beta * d0
        if _ % (len(x0) + 5) == 0:
            d0 = -g_k
    return OptimizeResult({'x': x0, 'fun': fun(*((x0,) + args)), 'jac': grad(*((x0,) + g_args)), 'nit': max_iter - _})

代码实现中有一个trick 即当迭代次数达到一定的次数后会将其重设为梯度的复方向

下面是在rosen函数上实验的结果

cg res

 fun: 1.5458689649160323e-22
 jac: array([ -1.10458309e-11,  -6.90558721e-12])
 nit: 4983
   x: array([ 1.,  1.])

迭代次数只有梯度下降的一半

完整代码https://github.com/DylanFrank/optimize

转载链接http://blog.csdn.net/Dylan_Frank/article/details/78270326

孤鸿子_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录