高级优化理论与方法（五）_polak-ribie 虂re formula-CSDN博客

本文链接：https://blog.csdn.net/liuzibujian/article/details/137001132

高级优化理论与方法（五）

Conjugate Direction Algorithm
- Lemma 1
- Lemma 2
Conjugate Gradient Algorithm
Quasi-Newton Methods
总结

Conjugate Direction Algorithm

IN: $x_0,d_0,\cdots, d_{n-1}$ , Q-conjugate
Property: $x^{k+1}=x^k+\alpha^kd_k, \alpha^k=-\frac{{g^k}^Td_k}{{d_k}^TQd_k}$

Lemma 1

In the conjugate direction algorithm, ${g^{k+1}}^Td_i=0, \forall 0\leq k\leq n-1, \forall 0\leq i\leq k$

Lemma 2

Lemma: $f(x^{k+1})=min f(x^0+\sum_{i=0}^k \alpha^i d_i)$

Pf: Let $D=[d_0,\cdots, d_{k-1}]$ be an nxk-matrix,

$x(\alpha)=x^0+D^k\alpha,\alpha \in \mathbb{R}^k$

$\phi^k(\alpha)=f(x(\alpha))=f(x^0+D^k\alpha)$

$D\phi^k(\alpha)=\nabla f(x^0+D^k\alpha)^TD^k$

Let $\overline{\alpha}=[\alpha^0,\alpha^1,\cdots,\alpha^{k-1}], \alpha^i$ generated by algorithm.

$D\phi^k(\overline{\alpha})=\nabla f(x^0+D^k\overline{\alpha})^TD^k=\nabla f(x^k)D^k={g^k}^TD^k$

$\because$ Property① $\Rightarrow {g^k}^Td_i=0, \forall i\leq k-1$

$\therefore D\phi^k(\overline{\alpha})=0$ , satisfies FONC

Conjugate Gradient Algorithm

IN: $f(x)=\frac{1}{2}x^TQx-b^Tx, x^0$

$k = 0$
compute $g^0=\nabla f(x^0)$ , If $g^0=0$ , then stop; else $d_0=-g^0$
$\alpha^k=-\frac{g^kd_k}{{d_k}^TQd_k}$
$x^{k+1}=x^k+\alpha^kd_k$
$g^{k+1}=\nabla f(x^{k+1})$ , If $g^{k+1}=0$ then stop;
$\beta^k=\frac{{g^{k+1}}^TQd_k}{{d_k}^TQd_k}$
$d^{k+1}=-g^{k+1}+\beta^kd_k$
$k$ ++, goto 3

Theorem

Thm: $d_0,\cdots, d_{n-1}$ computed in conjugate Gradient Algorithm are Q-conjugate.

Pf:
$n = 2 :$

${d_0}^TQd_1=d_0^TQ(-g^1+\beta^0d_0)={d_0}^TQ(-g^1+\frac{{g^1}^TQd_0}{{d_0}^TQd_0}d_0)=0$

$n = k + 1 :$

To prove ${d_{k+1}}^TQd_j=0, \forall j\leq k$

(Known: ${d_k}^TQd_j=0, \forall j\leq k-1$ )

${d_{k+1}}^TQd_j=(-g^{k+1}+\beta^kd_k)Qd_j=-g^{k+1}Qd_j+\beta^kd_kQd_j=-g^{k+1}Qd_j$

$\because g^{j+1}=Qx^{j+1}-b=Qx^j+\alpha^jQd_j-b=g^j+\alpha^jQd_j$

$\therefore {d_{k+1}}^TQd_j=-g^{k+1}\frac{g^{j+1}-g^j}{\alpha^j},j\leq k-1$

$\therefore \forall j \leq k: d_j=-g^j+\beta^{j-1}d_{j-1}$

$\therefore 0={g^{k+1}}^Td_j=-{g^{k+1}}^Tg^j+\beta^{j-1}{g^{k+1}}^Td_{j-1}=0$

$\therefore {g^{k+1}}^Tg^j=0, \forall j\leq k$

$\therefore {d_{k+1}}^TQd_j=0, \forall j\leq k-1$

${d_{k+1}}^TQd_k=0$ (The same as n=2)

Example

$f(x)=\frac{3}{2} x_1^2+2x_2^2+\frac{3}{2}x_3^2+x_1x_2+2x_2x_3-3x_1-x_3$

$Q=\begin{bmatrix} 3&0&1 \\ 0&4&2\\ 1&2&3 \end{bmatrix}$
$b=\begin{bmatrix} 3\\ 0\\ 1 \end{bmatrix}$
$x^0=\begin{bmatrix} 0\\ 0\\ 0 \end{bmatrix}$
$g^0=Qx^0-b=\begin{bmatrix} -3 \\ 0\\ 1 \end{bmatrix}$
$d_0=\begin{bmatrix} 3\\ 0\\ 1 \end{bmatrix}$
$\alpha^0=-\frac{[-3,0,-1]\begin{bmatrix} 3\\ 0\\ 1 \end{bmatrix}}{[3,0,1]Q\begin{bmatrix} 3\\ 0\\ 1 \end{bmatrix}}=\frac{10}{36}=0.2778$
$x^1=x^0+\alpha^0d_0=\begin{bmatrix} 0.8373\\ 0\\ 0.2778 \end{bmatrix}$
$\cdots$
$x^3=\begin{bmatrix} 1\\ 0\\ 0 \end{bmatrix}$

Non-Quadratic function f

Problems: Computation of $\alpha^k, \beta^k$
solutions: $\alpha^k=argmin_{x>0} f(x^k+\alpha d_k)\rightarrow$ one-dimentional search

$\beta^k$

Hestens-Stiefel-formula:

$x^{k+1}=x^k+\alpha^kd_k\Rightarrow Qx^{k+1}-b=Qx^k-b+\alpha^kQd_k\Rightarrow g^{k+1}-g^k=\alpha^kQd_k\Rightarrow Qd_k=\frac{g^{k+1}-g^k}{\alpha^k}$

$\beta^k=\frac{{g^k}^TQd_k}{{d_k}^TQd_k}=\frac{{g^k}^T(g^{k+1}-g^k)}{{d_k}^T(g^{k+1}-g^k)}$

Polak-Ribi $\grave{e}$ re-formula:

$\because {g^k}^Td_k=-{g^k}^Tg^k+{g_k}^T\beta^{k-1}d_{k-1}=-{g^k}^Tg^k$

$\therefore \beta^k=\frac{{g^{k+1}}^T(g^{k+1}-g^k)}{{g^k}^Tg^k}$

Fletcher-Reeves-Formula

$\because 0={g^{k+1}}^Td_k=-{g^{k+1}}^Tg^k+\beta^k{g^{k+1}}^Td_{k-1}\Rightarrow {g^{k+1}}^Tg^k=0$

$\therefore \beta^k=\frac{{g^{k+1}}^T{g^{k+1}}}{{g^{k}}^Tg^k}$

Quasi-Newton Methods

牛顿法回顾

$x^{k+1}=x^k-{F(x^k)}^{-1}\nabla f(x^k), f\in C^3$

牛顿法优点：简单，适用性广，收敛速度快

Problems

not descent, even if ${F(x^k)}^{-1}>0\Rightarrow x^{k+1}=x^k-\alpha^k{F(x^k)}^{-1}\nabla f(x^k)$ , where $\alpha^k=argmin_{\alpha>0}f(x^k-\alpha^k{F(x^k)}^{-1}\nabla f(x^k))$

not positive definite: $\Rightarrow G=({F(x^k)}^{-1}+\mu I_n)$

computation of ${F(x^k)}^{-1}\nabla f(x^k)$

Solution:

Construct $H^k$ (real-valued, positive definite, summetric)

$g^k=\nabla f(x^k)$

$d^k=-H^kg^k$

$\alpha^k=argmin f(x^k+\alpha d^k)$

$x^{k+1}=x^k+\alpha^kd^k$

Theorem

If $g^k\neq0$ and $H^k$ : nxn-metric(symmetric, positive definite), then $f(x^{k+1})<f(x^k)$

Theorem

Quadratic functions: $f(x)=\frac{1}{2}x^TQx-b^Tx$

Thm: Applying Quasi-Newton Method to a quadratic function with $Q=Q^T$ s.t. $H^{k+1}\Delta g_i=\Delta x^i, \forall0\leq i\leq k$ , where $\Delta g^i=g^{i+1}-g^i, \Delta x^i=x^{i+1}-x^i$ , if $\alpha^i\neq 0$ for all $0\leq i\leq k$ , then $d^0,\cdots,d^{k+1}$ are Q-conjugate.

Corollary

Applying Quasi-Newton to quadratic functions, $n$ step converges.

computation of H

Rank-One-Correction

$H^{k+1}=H^k+a^kz^k{z^k}^T, a^k\in \mathbb{R},z^k\in \mathbb{R}$

$z^k{z^k}^T=\begin{bmatrix} z_1^k\\ \cdots\\ z_n^k \end{bmatrix}\times[z_1^k,\cdots,z_n^k]=\begin{bmatrix} z_1^kz_1^k&\cdots & z_1^kz_n^k\\ \cdots& & \cdots\\ z_n^kz_1^k & \cdots & z_n^kz_n^k \end{bmatrix}$
$rank(z^k{z^k}^T)=1$

$H^{k+1}$ as a function of $H^k, \Delta g^k, \Delta x^k$

$H^{k+1}=H^k+\frac{(\Delta x^k-H^k\Delta g^k)(\Delta x^k-H^k\Delta g^k)^T}{\Delta {g^k}^T(\Delta x^k-H^k\Delta g^k)}$

Rank-One-Correction Algorithm

IN: $x^0, H^0$

$k := 0$
If $g^k=0$ , then stop; else $d^k=-H^kg^k$
compute $\alpha^k=argmin f(x^k+\alpha d^k), x^{k+1}=x^k+\alpha^kd^k$
compute $\Delta x^k=\alpha^kd^k, \Delta g^k=g^{k+1}-g^k,H^{k+1}=H^k+\frac{(\Delta x^k-H^k\Delta g^k)(\Delta x^k-H^k\Delta g^k)^T}{\Delta {g^k}^T(\Delta x^k-H^k\Delta g^k)}$
$k$ ++,goto 2

Theorem

Apply Rank-One to a quadratic function, with $Q=Q^T$ , we have $H^{k+1}\Delta g^i=\Delta x^i, \forall i\leq k$

Problems

$H^k$ positive definite?
$\Delta {g^k}^T(\Delta {x^k}^T-H^k\Delta {g^k})$ too small?

DFP algorithm

$H^{k+1}=H^k+\frac{\Delta {x^k}\Delta {x^k}^T}{\Delta {x^k}^T\Delta {g^k}}-\frac{(H^k\Delta {g^k})(H^k\Delta {g^k})^T}{\Delta {g^k}^TH^k\Delta {g^k}}$