高级优化理论与方法（四）

liuzibujian

已于 2024-06-26 11:32:34 修改

阅读量297

点赞数 5

分类专栏：高级优化理论与方法文章标签：数学优化理论优化方法算法

于 2024-03-19 17:37:34 首次发布

本文链接：https://blog.csdn.net/liuzibujian/article/details/136796379

版权

高级优化理论与方法专栏收录该内容

16 篇文章 1 订阅

订阅专栏

上节回顾

Fixed Stepsize

$x^{k+1}=x^k-\alpha\nabla f(x^k)$

Steepest Decent

$x^{k+1}=x^k-\alpha^k \nabla f(x^k)$ ,where $\alpha^k=argmin f(x^k-\alpha^k \nabla f(x^k))$

Gradient Method

Analysis

Theorem 3

Thm: Fixed Stepsize: $x^k\rightarrow x^*$ for any $x^0 \Leftrightarrow 0<\alpha <\frac{2}{\lambda_{max}(Q)}$

Pf: “ $\Leftarrow$ ”: Rayleigh’s Inequality: $\lambda_{min}(Q){g^k}^Tg^k\leq {g^k}^TQg^k\leq \lambda_{max}(Q){g^k}^Tg^k$

${g^k}^TQ^{-1}g^k\leq \frac{1}{\lambda_{min}(Q)}{g^k}^Tg^k$

$\Rightarrow r^k\geq \alpha\frac{\lambda_{min}(Q){g^k}^Tg^k}{\lambda_{max}(Q^{-1}){g^k}^Tg^k}(2\frac{{g^k}^Tg^k}{\lambda_{max}(Q){g^k}^Tg^k}-\alpha)=\alpha \lambda_{min}^2(Q)(\frac{2}{\lambda_{max}(Q)}-\alpha)\geq C>0$

$\sum_{k=0}^{\infty} r^k=\infty$

$x^k \rightarrow x^*$

Pf: “ $\Leftarrow$ ”: Assume $\alpha<0$ or $\alpha>\frac{2}{\lambda_{max}(Q)}$

Define $x^0$ with $x^0-x^*$ is an eigenvector of Q corresponding to $\lambda_{max}(Q)$

$x^{k+1}=x^k-\alpha(Qx^k-b)=x^k-\alpha(Qx^k-Qx^*)$

$\rightarrow x^{k+1}-x^*=x^k-x^*-\alpha(Qx^k-Qx^*)=(I_n-\alpha Q)(x^k-x^*)=(I_n-\alpha Q)^{k+1}(x^0-x^*)=(I_n-\alpha Q)^k(I_n-\alpha Q)(x^0-x^*)=(I_n-\alpha Q)^k(x^0-x^*-\alpha Q(x^0-x^*))=(I_n-\alpha Q)(x^0-x^*-\alpha \lambda_{max}(Q)(x^0-x^*))=(1-\alpha \lambda_{max}(Q))(I_n-\alpha Q)^k(x^0-x^*)=(1-\alpha \lambda_{max}(Q))^{k+1}(x^0-x^*)$

$||x^{k+1}-x^*||=|1-\alpha \lambda_{max}(Q)|^{k+1}||x^0-x^*||$

$\because \alpha>0$ or $\alpha>\frac{2}{\lambda_{max}(Q)}$

$\therefore |1-\alpha \lambda_{max}(Q)|>1$

$\therefore x^k$ not converge to $x^*$

Order of convergence

Def: Given $x^k\rightarrow x^*$ , $\lim_{k\to\infty} ||x^k-x^*||=0$ . Order of convergence is $\in \mathbb{R}$ ,if $0<\lim_{k\to\infty} \frac{||x^{k+1}-x^*||}{||x^k-x^*||^p}=c<\infty$

order is $\infty$ , if for all $p > 0$ : $\lim_{k\to\infty} \frac{||x^{k+1}-x^*||}{||x^k-x^*||^p}=0$

sublinear: $p = 1$ , $\lim_{k\to\infty} \frac{||x^{k+1}-x^*||}{||x^k-x^*||^p}=1$

linear: $p = 1$ , $\lim_{k\to\infty} \frac{||x^{k+1}-x^*||}{||x^k-x^*||^p}<1$

superlinear: $p = 1$ , $\lim_{k\to\infty} \frac{||x^{k+1}-x^*||}{||x^k-x^*||^p}>1$

注：对于二次函数， $p = 2$ 。

Example 1

$x^k=\frac{1}{k}$

$x^k\to 0=x^*$

$\frac{\frac{1}{k+1}}{(\frac{1}{k})^p}=\frac{k^p}{k+1}$

$p < 1$ : $\lim_{k\to\infty} \frac{k^p}{k+1}=0$

$p = 1$ : $\lim_{k\to\infty}\frac{k}{k+1}=1$

Example 2

$x^k=r^k$ ( $0 < r < 1$ )

$x^*=0$

$\frac{r^{k+1}}{(r^k)^p}=r^{k(1-p)+1}$

$p < 1$ : $\lim_{k\to\infty} r^{k(1-p)+1}=0$

$p = 1$ : $\lim_{k\to\infty} r^{k(1-p)+1}=r<1$

Example 3

$x^k=r^{q^k}$ , $q > 1$ , $0 < r < 1$

$x^*=0$

$\frac{r^{q^{k+1}}}{(r^{q^k})^p}=r^{q^{k+1}-pq^k}=r^{(q-p)q^k}$

$p < q$ : $\lim_{k\to\infty}r^{(q-p)q^k}=0$

$p = q$ : $\lim_{k\to\infty}r^{(q-p)q^k}=1$

Example 4

$x^k=1$

$x^k\to x^0=1$

$\frac{x^{k+1}-1}{(x^k-1)^p}=0$ , $p=\infty$

Theorem

$x^{k+1}-x^*||=O(||x^k-x^*||^p)$

For large $k$ : $\exist c \in \mathbb{R}$ : $||x^{k+1}-x^*||\leq c||x^{k}-x^*||^p$

Thm: $x^k-x^*$ If $x^{k+1}-x^*||=O(||x^k-x^*||^p)$ , then the order of convergence is at least $p$ .

Pf: For large $k$ , $\exist c$ : $\frac{||x^{k+1}-x^*||}{||x^{k}-x^*||^p}\leq c$

$\frac{||x^{k+1}-x^*||}{||x^{k}-x^*||^s}=\frac{||x^{k+1}-x^*||}{||x^{k}-x^*||^p}||x^{k}-x^*||^{p-s}\leq c||x^{k}-x^*||^{p-s}$

If $s$ is the order of convergence, $\lim_{k\to\infty} \frac{||x^{k+1}-x^*||}{||x^k-x^*||^s}>0$

$\Rightarrow c\lim_{k\to\infty} ||x^k-x^*||^{p-s}>0$

$\because \lim_{k\to\infty} ||x^k-x^*||=0$

$\therefore$ if $p > s$ , $c\lim_{k\to\infty} ||x^k-x^*||^{p-s}=0$

$\Rightarrow s \geq p$

Theorem

Thm: Stepest Decent: the order of convergence $\geq 1$

Pf: $Q$ : $\lambda_{max}(Q)>\lambda_{min}(Q)>0$

Suffices to prove: $\exist c, ||x^{k+1}-x^*||\geq c||x^k-x^*||$

$\because V(x^{k+1})=\frac{1}{2}(x^{k+1}-x^*)^TQ(x^{k+1}-x^*)\leq\frac{\lambda_{max}(Q)}{2}||x^{k+1}-x^*||^2$

$V(x^*)\geq\frac{\lambda_{min}(Q)}{2}||x^k-x^*||^2$

$||x^{k+1}-x^*||\geq \sqrt{(1-r^k)\frac{\lambda_{min}(Q)}{\lambda_{max}(Q)}}||x^k-x^*||$

To prove : $r^k<1\Rightarrow g^k$ is not eigenvectir of $Q\Leftrightarrow r^k<1$

Newton Method

$f\in C^2$

$x^*$ FONC $\Rightarrow \nabla f(x^*)=0$

$x^{k+1}=x^k-\frac{f'(x^k)}{f''(x^k)}\Rightarrow x^{k+1}=x^k-[F(x^k)]'\nabla f(x^*)$

优缺点

优点

Pro: simple, convergen order

缺点

Con: $F(x^k)<0$ ,

even if $F(x^k)>0$ , not decent.

Compute $F^{-1}(x^k)$

Convergence Order

Example

$f(x)=\frac{1}{2}x^TQx-b^Tx$

$\nabla f(x)=Qx-b$

$F (x) = Q$

$x^1=x^0-Q^{-1}(Qx^0-b)=x^0-x^0+Q^{-1}b=Q^{-1}b=x^*$

Theorem

Thm: $f\in C^3$ , $x^*$ : $\nabla f(x^*)=0$ and $F(x^*)$ inventible. Then, for all $x^0$ sufficiently close to $x^*$ , $x^*$ converges to $x^*$ with an order at least 2.

Pf: To prove: $x^{k+1}-x^*||=O(||x^k-x^*||^2)$

$||x^{1}-x^*||=||x^0-x^*-F^{-1}(x^0)\nabla f(x^*)||=||F^{-1}(x^0)(F(x^0)(x^0-x^*)-\nabla f(x^0))||\leq ||F^{-1}(x^0)||\cdot||(F(x^0)(x^0-x^*)-\nabla f(x^0))||$

$\because F(x^*)$ inventible, $f\in C^3$ , $x^0$ sufficiently close to $x^*$ , $F^{-1}(x^*)||$ constant $\Rightarrow ||F^{-1}(x^0)||<c_2$ for some $c_2\in \mathbb{R}$

Taylor expansion of $\nabla f(x)$ : $\nabla f(x)-\nabla f(x^*)=F(x^0)(x-x^0)+O(||x-x^0||^2)$

$\forall x, ||x-x^*||<\epsilon: ||\nabla f(x)-\nabla f(x^0)-F(x^0)(x-x^0)||\leq c_1 ||x-x^0||^2$ for some $c_1\in \mathbb{R}$

If $x^*\in \{x:||x-x^*||<\epsilon\}$ : $||\nabla f(x^*)-\nabla f(x^0)-F(x^0)(x^*-x^0)||\leq c_1 ||x^*-x^0||^2$

$||F(x^0)(x^0-x^*)-\nabla f(x^0)||\leq c_1||x^*-x^0||^2$

$||x^1-x^*||\leq c_1c_2||x^0-x^*||^2$

$||x^{k+1}-x^*||\leq c_1c_2||x^k-x^*||^2$

Let $0 < x < 1$ , choose $x^0$ satisfy $||x^0-x^*||\leq\frac{\alpha}{c_1c_2}$

$\lim_{k\to\infty} ||x^k-x^*||\leq \alpha^k ||x^0-x^*||=0$

Theorem

Thm: $x^k$ : Sequence generated by Newton’s Method. If $F(x^k)>0$ and $\nabla f(x^k)\neq0$ , then for $d^k=-F^{-1}(x^k)\nabla f(x^k)$ , there exsits an $\overline{\alpha}>0$ s.t. $\forall \alpha\in (0,\overline{\alpha}): f(x^k+\alpha d^k)<f(x^k)$ .

Pf: Let $\phi(\alpha)=f(x^k+\alpha d^k)$

$\phi'(\alpha)=\nabla f(x^k+\alpha d^k)^Td^k$

$\phi'(0)=\nabla f(x^k)^Td^k=-\nabla f(x^k)^TF(x^k)\nabla f(x^k)$

$\because F(x^k)>0, \nabla f(x^k)\neq 0$

$\therefore \phi'(0)<0$

$\therefore \exist \overline{\alpha}>0$ s.t. $\forall \alpha\in (0,\overline{\alpha}): \phi(\alpha)<\phi(0)$

$\forall \alpha\in (0,\overline{\alpha}): f(x^k+\alpha d^k)<f(x^k)$

Modification

$x^{k+1}=x^k-\alpha^k F^{-1}(x^k)\nabla f(x^k)$ , where $\alpha^k=argmin f(x^k-\alpha F^{-1}(x^k)\nabla f(x^k)$

$F(x^k)$ not positive definite.

Let $\lambda_1,\lambda_2,\cdots,\lambda_n$ be the eigenvalues of $F(x^k)$ corresponding to eigenvalues $v_1,v_2,\cdots,v_n$

Consider $G=F(x^k)+\mu I_n,\mu>0$

$Gv_i=(F(x^k)+\mu I_n)v_i=F(x^k)v_i+\mu v_i=\lambda_i v_i+\mu v_i=(\lambda_i+\mu)v_i\Rightarrow v_i$ eigrnvector of $G$ corresponding to $\lambda_i+\mu$

Choose $\mu$ large enough, s.t. $\lambda_i+\mu>0$ $\forall i\Rightarrow G$ positive definite

Modification: $x^{k+1}=x^k-\alpha^k(F(x^k)+\mu I_n)^{-1}\nabla f(x^k)$

$\alpha^k=argmin f(x^k-\alpha(F(x^k)+\mu I_n)^{-1}\nabla f(x^k))$

Conjugate Method

Def: $Q$ : symmetric matrix from $\mathbb{R}^{n\times n}$ . $d_0,\cdots,d_m$ are Q-conjugate, if $\forall i\neq j$ ： $d_i^TQd_j=0$

Orthogonal: $x^Ty=0\stackrel{\Delta}{=}x^T I_n y$

Lemma

Lem: $Q$ symmetric, positive definite. $d_0,\cdots,d_k$ : non-zero, Q-conjugate. Then $d_0,\cdots,d_k$ linearly independent.

$d_j^TQ(a_0d_0+\cdots+a_kd_k)=0$

$a_jd_j^TQd_j=0$

$\because a>0, d_j\neq0$

$\therefore a_j=0$

Conjugate Direction Algorithm

Input: $f(x)=\frac{1}{2}x^TQx-b^Tx, x_0, d_0,\cdots,d_{n-1}$ : Q-conjugate

$g^k=\nabla f(x^k)=Qx^k-b$

$\alpha^k=-\frac{{g^k}^Td_k}{d_k^TQd_k}$

$x^{k+1}=x^k+\alpha^kd_k$

Thm: For any $x_0$ , CDA converges to $x^*$ in $n$ steps.

Pf: $\because d_0,\cdots,d_{n-1}$ Q-conjugate

$\therefore d_0,\cdots,d_{n-1}$ linearly independent

$\Rightarrow \exist \beta_0,\cdots,\beta_{n-1}: x^*-x^0=\beta_0d_0+\cdots+\beta_{n-1}d_{n-1}$

$\Rightarrow d_k^TQ(x^*-x^0)=\beta_kd_k^TQd_k$

$\Rightarrow \beta_k=\frac{d_k^TQ(x^*-x^0)}{d_k^TQd_k}=-\frac{d_k^Tg^k}{d_k^TQd_k}=\alpha^k$

$x^k=x^0+\alpha^0d_0+\cdots+\alpha^{k-1}d_{k-1}$

$d_k^TQ(x^*-x^0)=d_k^TQ(x^*-x^k+x^k-x^0)=d_k^TQ(x^*-x^k)=d_k^T(Qx^*-Qx^k)=d_k^T(b-Qx^k)=-d_k^Tg^k$

Example

$Q=\begin{bmatrix} 3&0&1 \\ 0&4&2\\ 1&2&3 \end{bmatrix}$

Compute $d_0,d_1,d_2$
$d_0=\begin{bmatrix} 1 \\ 0\\ 0 \end{bmatrix}$

$d_0^TQd_1=[1,0,0]\begin{bmatrix} 3&0&1 \\ 0&4&2\\ 1&2&3 \end{bmatrix}\begin{bmatrix} d_1^1 \\ d_1^2\\ d_1^3 \end{bmatrix}=3d_1^1+d_1^3=0$
$d_1=\begin{bmatrix} 1 \\ 0\\ -3 \end{bmatrix}$
注：此处展示了如何获取Q-conjugate的向量 $d_0$ 和 $d_1$ 。先选取一个比较简单的 $d_0$ ，然后代入 $d_0^TQd_1=0$ ，算出关于 $d_1$ 的关系式 $3d_1^1+d_1^3=0$ ，然后选定 $d_1=[1,0,-3]^T$ 。
$f(x)=\frac{1}{2}x^T\begin{bmatrix} 4&2 \\ 2&2 \end{bmatrix}x-[-1,1]x$
$g(x)=\begin{bmatrix} 4&2 \\ 2&2 \end{bmatrix}x-\begin{bmatrix} -1 \\ 1 \end{bmatrix}$
$x^0=\begin{bmatrix} 0 \\ 0 \end{bmatrix}$
$d_0=\begin{bmatrix} 1 \\ 0 \end{bmatrix}$
$d_1=\begin{bmatrix} -\frac{3}{8} \\ \frac{3}{4} \end{bmatrix}$
$g^0=\begin{bmatrix} 1 \\ -1 \end{bmatrix}$
$\alpha^0=\frac{-{g^0}^Td_0}{d_0^TQd_0}=\frac{-[1,-1]\begin{bmatrix} 1 \\ 0 \end{bmatrix}}{[1,0]\begin{bmatrix} 4&2 \\ 2&2 \end{bmatrix}\begin{bmatrix} 1 \\ 0 \end{bmatrix}}=-\frac{1}{4}$
$x^1=x^0+\alpha^0d_0=\begin{bmatrix} -\frac{1}{4} \\ 0 \end{bmatrix}$
$g^1=\begin{bmatrix} 0 \\ -\frac{2}{3} \end{bmatrix}$
$\alpha^1=2$
$x^2=\begin{bmatrix} -1 \\ \frac{3}{2} \end{bmatrix}$
$f(x^2)=0$
注：二次函数在 $n$ 次迭代后必取到最值。

总结

本节课首先延续上节课的梯度方法，做了一些理论上的分析。然后提出了收敛速度的概念，从而可以进一步比较各个方法的收敛速度。最后介绍了牛顿法和共轭方向法。

liuzibujian

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
高级优化理论与方法（四）

高级优化理论与方法（四）上节回顾Fixed StepsizeSteepest DecentGradient MethodAnalysisTheorem 3Order of convergenceExample 1Example 2Example 3Example 4TheoremTheoremNewton Method优缺点优点缺点Convergence OrderExampleTheoremTheoremModificationConjugate MethodLemmaConjugate Directio
复制链接

扫一扫