高级优化理论与方法（六）

最新推荐文章于 2024-07-14 22:58:05 发布

liuzibujian

最新推荐文章于 2024-07-14 22:58:05 发布

阅读量813

点赞数 30

分类专栏：高级优化理论与方法文章标签：线性代数算法优化理论优化方法数学

本文链接：https://blog.csdn.net/liuzibujian/article/details/137217053

版权

高级优化理论与方法专栏收录该内容

16 篇文章 1 订阅

订阅专栏

高级优化理论与方法（六）

Quasi-Newton Methods
Solving Linear Equations
- Case 1
总结

Quasi-Newton Methods

Rank-One Algorithm

核心公式

$d^k=-H^kg^k$
$\alpha^k=argmin f(x^k+\alpha d^k)$
$x^{k+1}=x^k+\alpha^kd^k$
$H^{k+1}=H^k+\frac{(\Delta x^k-H^k\Delta g^k)(\Delta x^k-H^k\Delta g^k)^T}{\Delta{g^k}^T(\Delta x^k-H^k\Delta g^k)}$

Theorem

Quadratic: $H^{k+1}\Delta g^i=\Delta x^i, \forall i\leq k$

Example

$f(x)=x_1^2+\frac{1}{2}x_2^2+3=\frac{1}{2}x^T\begin{bmatrix} 2&0 \\ 0&1 \end{bmatrix}x+3$

$g^k=\begin{bmatrix} 2&0 \\ 0&1 \end{bmatrix}x^k$

$x^0=\begin{bmatrix} 1 \\ 2 \end{bmatrix}$

$H^0=\begin{bmatrix} 1&0 \\ 0&1 \end{bmatrix}$

$d^0=-H^0g^0=\begin{bmatrix} -2 \\ -2 \end{bmatrix}$

$\alpha^0=\frac{{g^0}^Td^0}{{d^0}^TQd^0}=\frac{2}{3}$

$x^1=x^0+\alpha^0d^0=\begin{bmatrix} -\frac{1}{3} \\ \frac{2}{3} \end{bmatrix}$

$H^1=\begin{bmatrix} \frac{1}{2}&0 \\ 0&1 \end{bmatrix}$

Problems

$H^k$ not positive definite $\Rightarrow$ not descent.

$\Delta{g^k}^T(\Delta x^k-H^k\Delta g^k)$ too small, close to zero.

DFP-Algorithm

算法步骤

IN: $x^0, H^0$ （positive definite, symmetric）

$k := 0$
If $g^k=0$ , then stop; else $d^k=-H^kg^k$
compute $\alpha^k=argmin f(x^k+\alpha d^k), x^{k+1}=x^k+\alpha^kd^k$
compute $\Delta x^k=\alpha^kd^k, \Delta g^k=g^{k+1}-g^k,H^{k+1}=H^k+\frac{\Delta x^k{\Delta x^k}^T}{{\Delta x^k}^T\Delta g^k}-\frac{(H^k\Delta g^k)(H^k\Delta g^k)^T}{{\Delta g^k}^TH^k\Delta g^k}$
$k$ ++,goto 2

Theorem

Applying DFP to quadratic functions: $H^{k+1}\Delta g^i=\Delta x^i, \forall i\leq k$

Example

$f(x)=\frac{1}{2}x^T\begin{bmatrix} 4&2 \\ 2&2 \end{bmatrix}x-x^T\begin{bmatrix} -1 \\ 1 \end{bmatrix}$

$x^0=\begin{bmatrix} 0 \\ 0 \end{bmatrix}$

$H^0=\begin{bmatrix} 1&0 \\ 0&1 \end{bmatrix}$

$g^k=\begin{bmatrix} 4&2 \\ 2&2 \end{bmatrix}x-\begin{bmatrix} -1 \\ 1 \end{bmatrix}$

$g^0=\begin{bmatrix} 1 \\ -1 \end{bmatrix}$

$d^0=-H^0g^0=\begin{bmatrix} -1 \\ 1 \end{bmatrix}$

$\alpha^0=1$

$x^1=x^0+\alpha^0d^0=\begin{bmatrix} -1 \\ 1 \end{bmatrix}$

$g^1=\begin{bmatrix} -1 \\ 1 \end{bmatrix}$

$\Delta x^0=\begin{bmatrix} -1\\ 1 \end{bmatrix}$

$\Delta g^0=\begin{bmatrix} -2\\ 0 \end{bmatrix}$

$\Delta x^0{\Delta x^0}^T=\begin{bmatrix} -1\\ 1 \end{bmatrix}[-1,1]=\begin{bmatrix} 1&-1 \\ -1&1 \end{bmatrix}$

${\Delta x^0}^T\Delta g^0=2$

$H^0\Delta g^0=\begin{bmatrix} -2\\ 0 \end{bmatrix}$

$(H^0\Delta g^0)(H^0\Delta g^0)^T=\begin{bmatrix} 4&0 \\ 0&0 \end{bmatrix}$

${\Delta g^0}^T H^0 \Delta g^0=4$

$H^1=H^0+\frac{\Delta x^0{\Delta x^0}^T}{{\Delta x^0}^T\Delta g^0}-\frac{(H^0\Delta g^0)(H^0\Delta g^0)^T}{{\Delta g^0}^TH^0\Delta g^0}=\begin{bmatrix} 1&0 \\ 0&1 \end{bmatrix}+\frac{\begin{bmatrix} 1&-1 \\ -1&1 \end{bmatrix}}{2}-\frac{\begin{bmatrix} 4&0 \\ 0&0 \end{bmatrix}}{4}=\begin{bmatrix} \frac{1}{2}&-\frac{1}{2} \\ -\frac{1}{2}&\frac{3}{2} \end{bmatrix}$

$d^1=-H^1g^1=\begin{bmatrix} 0 \\ 1 \end{bmatrix}$

$\alpha^1=\frac{1}{2}$

$x^2=x^1+\alpha^1 d^1=\begin{bmatrix} -1 \\ \frac{3}{2} \end{bmatrix}=x^*$

Theorem

If $g^k\neq 0, H^k$ being positive definite implies $H^{k+1}$ being positive definite.

BFGS

前两个算法的核心是用 $H^k$ 来表示 $F(x^k)^{-1}$ ，即二阶导的逆。两种算法的不同之处仅仅在于用不同的公式来计算 $H^k$ 。BFGS是用 $G^{k+1}$ 来表示 $F(x^k)$ ，从而推导出 $H^k$ 。BFGS的收敛速度在某些情况下较其它两种方法快，但是在非二次函数的情形下难以证明。这里只给出 $H^k$ 的公式，不做过多展开。
$H^{k+1}=H^k+(1+\frac{{\Delta g^k}^TH^k\Delta g^k}{{\Delta g^k}^T\Delta x^k})\frac{\Delta x^k{\Delta x^k}^T}{\Delta x^k\Delta g^k}-\frac{H^k\Delta g^k{\Delta x^k}^T+(H^k\Delta g^k{\Delta x^k}^T)^T}{{\Delta g^k}^T\Delta x^k}$

Solving Linear Equations

$A\in \mathbb{R}^{m\times n}, x\in \mathbb{R}^n, b\in \mathbb{R}^m$

$\begin{cases} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=b_1\\ \cdots\\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n=b_n \end{cases}$

$n$ 代表变量个数， $m$ 代表方程个数。默认这 $m$ 个方程线性无关。

Case 1

$m\geq n, rankA=n$

可以把问题看成用 $m$ 个数据点来拟合有 $n$ 个变量的函数，此时可能不存在严格的解。于是我们不要求严格地解这个方程，而是把解方程问题转化为数据拟合问题（Data fitting）。

在数据拟合问题中，我们一般采取的是Least Square fitting，即求 $min ||Ax-b||^2$

Lemma

$rankA=n\Leftrightarrow rank A^TA=n$

Theorem

The unique vector $x^*$ minimizing $Ax-b||^2$ is given by $x^*=(A^TA)^{-1}A^Tb$

Proposition

$A=[a_1,a_2,\cdots,a_n]$

$span[a_1,a_2,\cdots,a_n]$ 表示由这些向量张成的空间。

设 $b$ 在该空间上的投影为 $v$ ，则 $v=Ax^*=A(A^TA)^{-1}A^Tb$

注：该命题是通过几何方法给出了 $x^*=(A^TA)^{-1}A^Tb$ 的一个证明。

Example

$i$	1	2	3
$t_i$	2	3	4
$y_i$	3	4	15

$y = m t + c$

$A=\begin{bmatrix} 2&1 \\ 3&1\\ 4&1 \end{bmatrix}$

$b=\begin{bmatrix} 3 \\ 4\\ 15 \end{bmatrix}$

$x^*=\begin{bmatrix} 6 \\ -\frac{32}{3} \end{bmatrix}$

注：此时， $x=\begin{bmatrix} m \\ c \end{bmatrix}$

Recursive Least-Square Algorithm

根据原始数据，已经计算出了 $x^*$ 的值，那么此时如果给出一些新的数据，如何在借助已知值的基础上快速算出新的 $x^*$ ，就是这个算法要解决的问题。
$min||A_0x-b_0||^2\Leftarrow x_0=G_0^{-1}A_0^Tb_0$
$G_0=A_0^{-1}A_0$

$min\left|\left|\begin{bmatrix} A_0 \\ A_1 \end{bmatrix}x-\begin{bmatrix} b_0 \\ b_1 \end{bmatrix}\right|\right| ^2$

$x_1=G_1^{-1}\begin{bmatrix} A_0 \\ A_1 \end{bmatrix}^T\begin{bmatrix} b_0 \\ b_1 \end{bmatrix}$

$G_1=\begin{bmatrix} A_0 \\ A_1 \end{bmatrix}^T\begin{bmatrix} A_0 \\ A_1 \end{bmatrix}=A_0^TA_0+A_1^TA_1$

Goal: express $x_1$ as a function of $x_0,A_1,b_1,G_0$

$x_1=x_0+G_1^{-1}A_1^T(b_1-A_1x_0)$

$k\to k+1: \begin{cases} G_{k+1}=G_k+A_{k+1}^TA_{k+1}\\ x_{k+1}=x_k+G_{k+1}^{-1}A_{k+1}^T(b_{k+1}-A_{k+1}x_k) \end{cases}$

Let $G_{k+1}^{-1}=P_{k+1}, G_k^{-1}=P_k$

$P_{k+1}=P_k-P_kA_{k+1}^T(I+A_{k+1}P_kA_{k+1}^T)^{-1}A_{k+1}P_k$

$x_{k+1}=x_k+P_kA_{k+1}^T(b_{k+1}-A_{k+1}x_k)$

Lemma

$X$ invertible matrix, $U$ and $V$ satisfy $I+VX^{-1}U$ being invertible, then $X+UV)^{-1}=X^{-1}-(X^{-1}U)(I+VX^{-1}U)^{-1}(VX^{-1})$

总结

本节课先就上节课没讲完的拟牛顿法接着讲，回顾了秩为1的修正方法。由于该方法存在一些问题，为了解决这些问题，又介绍了DFP算法。接着又简要介绍了收敛速度较快的BFGS算法。接着开始了一个新的主题——解线性方程组。由于问题的复杂性，我们讲问题分成两种情况来分类讨论，即 $m\geq n$ 和 $m < n$ 两种情况。目前只讲了第一种情况。第一种情况本质上是一个数据拟合问题，根据数据，求得 $min ||Ax-b||^2$ 。然后，介绍了直接的求解公式。最后，对于如何在充分利用已知数据的基础上，对新数据进行拟合，又提出了递归最小二乘法。

liuzibujian

关注

30
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
高级优化理论与方法（六）

本节课先就上节课没讲完的拟牛顿法接着讲，回顾了秩为1的修正方法。由于该方法存在一些问题，为了解决这些问题，又介绍了DFP算法。接着又简要介绍了收敛速度较快的BFGS算法。接着开始了一个新的主题——解线性方程组。由于问题的复杂性，我们讲问题分成两种情况来分类讨论。目前只讲了第一种情况。第一种情况本质上是一个数据拟合问题，根据数据，求得$min ||Ax-b||^2$。然后，介绍了直接的求解公式。最后，对于如何在充分利用已知数据的基础上，对新数据进行拟合，又提出了递归最小二乘法。
复制链接

扫一扫