抄书——最优化的理论与方法（4）——数学基础（秩一校正）

最新推荐文章于 2024-06-28 15:29:19 发布

田神

最新推荐文章于 2024-06-28 15:29:19 发布

阅读量7.4k

点赞数 12

分类专栏：数学文章标签：抄书

数学专栏收录该内容

15 篇文章 0 订阅

订阅专栏

矩阵的秩一校正在最优化中经常用到。那什么是秩一校正呢？以下主要内容部分抄自抄袁亚湘的《最优化理论与方法》。

定义：秩一校正( rank-1 update)
设 $A\in R^{n \times n}$ 是非奇异矩阵， $u,v\in R^{n\times 1}$ 是任意向量，则称 $A+uv^T$ 是 $A$ 的秩一校正。
其实， $uv^T$ 就是一个秩为1的 $n\times n$ 矩阵，“秩一校正”因而得名。
定理 1.2.6（Sherman-Morrison定理）
（Computes the inverse of the sum of an invertible matrix $A$ and the outer product, $uv^T$ , of vectors $u$ and $v$ .）
若
$1+v^TA^{-1}u\neq 0 \qquad(1.2.36)$
则 $A$ 的秩一校正 $A+uv^T$ 也是非奇异的，且其逆矩阵可以表示为
$(A+uv^T)^{-1}=A^{-1}-\frac{A^{-1}uv^TA^{-1}}{1+v^TA^{-1}u}\qquad(1.2.37)$
证明：
$(A+uv^T)\left( A^{-1}-\frac{A^{-1}uv^TA^{-1}}{1+v^TA^{-1}u}\right)\\ \text{ } \\ =AA^{-1}+uv^TA^{-1} - \frac{uv^TA^{-1}+uv^TA^{-1}uv^TA^{-1}}{1+v^TA^{-1}u}\\ \text{ } \\ =I+uv^TA^{-1}-\frac{u(1+v^TA^{-1}u)v^TA^{-1}}{1+v^TA^{-1}u}\\ \text{ } \\=I+uv^TA^{-1}-uv^TA^{-1}=I$

它有什么用呢：（摘自：https://en.wikipedia.org/wiki/Sherman–Morrison_formula）
If the inverse of $A$ is already known, the formula provides a numerically cheap way to compute the inverse of $A$ corrected by the matrix $uv^{T}$ (depending on the point of view, the correction may be seen as a perturbation or as a rank-1 update). The computation is relatively cheap because the inverse of $A+uv^{T}$ does not have to be computed from scratch (which in general is expensive), but can be computed by correcting (or perturbing) $A^{-1}$ .

上述定理的推广为：
定理 1.2.7（Sherman-Morrison-Woodburg 定理）
设 $A\in R^{n \times n}$ 是非奇异矩阵， $U, V$ 是 $n\times m$ 矩阵，若 $I+V^*A^{-1}U$ ，则 $A+UV^*$ 可逆，且：
$A+UV^*)^{-1}=A^{-1}-A^{-1}U(I+V^*A^{-1}U)^{-1}V^*A^{-1}$

它的应用：（摘自https://en.wikipedia.org/wiki/Woodbury_matrix_identity）
This identity is useful in certain numerical computations where $A^{−1}$ has already been computed and it is desired to compute $A + UCV)^{−1}$ . With the inverse of A available, it is only necessary to find the inverse of $C^{−1} + VA^{−1}U$ in order to obtain the result using the right-hand side of the identity. If $C$ has a much smaller dimension than A, this is more efficient than inverting $A + U C V$ directly.

关于秩一校正的行列式，有：
$det(I+uv^T)=1+u^Tv\qquad(1.2.39)$
事实上，可以假定 $u\neq 0$ ，注意到 $I+uv^T$ 的特征向量或者直交于 $v$ ，或者平行于 $u$ 。如果直交于 $v$ ，则特征值为1；如果平行于 $u$ ，则特征值为 $1+u^Tv$ ，从而得到（1.2.39）的结果。

证明：假设 $\xi$ 是 $I+uv^T$ 的特征向量，它对应的特征值是 $\lambda$ ，则有：
$(I+uv^T)\xi = \lambda \xi \\ \xi + uv^T \xi = \lambda \xi\\ uv^T \xi = (\lambda-1) \xi$
由于 $uv^T$ 是秩为1的矩阵，因而它可经过线性变换为：
$uv^T \to \left[\begin{array}{c c c c}\lambda_0 &0 &\cdots &0 \\ 0 & \lambda_0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_1 \end{array}\right]$
因而它只有两个特征值： $\lambda_0 = 0$ （有n-1个）和 $\lambda_1$ （只有1个），
（1）若 $\lambda = \lambda_0 + 1=1$ ，即 $uv^T \xi =0 \Rightarrow v^T \xi =0$ ，即： $I+uv^T$ 的特征向量直交于 $v$ ，特征值为1；
（2）若 $\lambda = \lambda_1 + 1$ ，有：
$uv^T \xi = \lambda_1 \xi\\ . \\ \xi^Tuv^T \xi = \lambda_1 \xi^T\xi=\lambda_1\quad(\Vert\xi\Vert_2=1)\\ . \\ \xi^Tuv^T \xi=\lambda_1 \\ . \\ \xi^T \xi u^T v = u^Tv=\lambda_1 \Rightarrow \lambda=u^Tv+1$
即： $I+uv^T$ 的特征向量平行于 $u$ ，特征值为 $u^Tv+1$ 。

进一步，对于秩二校正，有：
$\det(I+u_1u_2^T+u_3u_4^T)\\ =(1+u_1^Tu_2)(1+u_3^Tu_4)-(u_1^Tu_4)(u_2^Tu_3)\qquad(1.2.40)$
事实上，只要注意到：
$I+u_1u_2^T+u_3u_4^T=(I+u_1u_2^T)[I+(I+u_1u_2^T)^{-1}u_3u_4^T]\\ \text{ } \\ \Rightarrow det(I+u_1u_2^T+u_3u_4^T)=(1+u_1^Tu_2)\left[1+u_4^T\left(I-\frac{u_1u_2^T}{1+u_1^Tu_2}\right)u_3\right]\\ \text{ } \\ =(1+u_1^Tu_2)(1+u_3^Tu_4)-(u_1^Tu_4)(u_2^Tu_3)$
注意到 $\Vert A \Vert_F^2=tr(A^TA)$ ，故秩一校正矩阵 $A+xy^T$ 的Frobenius 范数为：
$\Vert A+xy^T\Vert_F^2=\Vert A \Vert_F^2+2y^TA^Tx+\Vert x \Vert_F^2\Vert y \Vert_F^2 \qquad(1.2.41)$
又设 $P\in R^{n\times n}$ ，
$P=I-\frac{xy^T}{\Vert x \Vert \Vert y \Vert}\qquad(1.2.42)$
显然， $P$ 有 $n - 1$ 个特征值为1，利用（1.2.40），考虑 $P^TP$ 的最大特征值，可知：
$\Vert P \Vert_2=\frac{y^Tx}{\Vert x \Vert \Vert y \Vert}\qquad(1.2.43)$

证明：
考虑 $\Vert P\Vert_2=(\lambda_{P^TP})^{1/2}$ 即 $P$ 矩阵的谱范数， $\lambda_{P^TP}$ 表示 $P^TP$ 的最大特征值。
$P^TP=\left(I-\frac{xy^T}{\Vert x \Vert \Vert y \Vert}\right)^T\left(I-\frac{xy^T}{\Vert x \Vert \Vert y \Vert}\right)\\ \text{ } \\ = \left(I-\frac{yx^T}{\Vert x \Vert \Vert y \Vert}\right)\left(I-\frac{xy^T}{\Vert x \Vert \Vert y \Vert}\right)\\ \text{ } \\ =I-\frac{yx^T}{\Vert x \Vert \Vert y \Vert} -\frac{xy^T}{\Vert x \Vert \Vert y \Vert}+\frac{yx^Txy^T}{\Vert x \Vert^2 \Vert y \Vert^2}\\ \text{ } \\ = I-\frac{yx^T}{\Vert x \Vert \Vert y \Vert}-\frac{xy^T}{\Vert x \Vert \Vert y \Vert}+\frac{yy^T}{\Vert y \Vert^2}\\ \\ \text{ } \\ = I-\frac{yx^T}{\Vert x \Vert \Vert y \Vert}+\left(\frac{y}{\Vert y \Vert} -\frac{x}{\Vert x \Vert}\right)\frac{y^T}{\Vert y \Vert}$
这是个秩二校正矩阵，令
$u_1=\frac{y}{\Vert y \Vert}\quad,u_2=-\frac{x}{\Vert x \Vert}\quad,u_3=\frac{y}{\Vert y \Vert}-\frac{x}{\Vert x \Vert}\quad,u_4=\frac{y}{\Vert y \Vert}$
因为 $y^Ty=\Vert y \Vert^2,\quad x^Tx=\Vert x \Vert^2$ ，代入（1.2.40），有：
$\det(P^TP)=(1+u_1^Tu_2)(1+u_3^Tu_4)-(u_1^Tu_4)(u_2^Tu_3)\\ \text{ } \\ =\left(1-\frac{y^Tx}{\Vert y \Vert \Vert x \Vert}\right)\left(1+\frac{y^Ty}{\Vert y\Vert^2}-\frac{x^Ty}{\Vert x\Vert \Vert y\Vert} \right)+\frac{y^T}{\Vert y \Vert} \frac{y}{\Vert y \Vert}\frac{x^T}{\Vert x \Vert}\left(\frac{y}{\Vert y \Vert}-\frac{x}{\Vert x \Vert}\right) \\ \text{ } \\ = \left(1-\frac{y^Tx}{\Vert y \Vert \Vert x\Vert} \right)\left(2-\frac{x^Ty}{\Vert y \Vert \Vert x\Vert} \right)+\frac{x^Ty}{\Vert x \Vert\Vert y \Vert}-1\\ \text{ } \\ = 2- 2\frac{y^Tx}{\Vert y \Vert \Vert x\Vert}-\frac{x^Ty}{\Vert y \Vert \Vert x\Vert}+\frac{y^Tx}{\Vert y \Vert \Vert x\Vert}\frac{x^Ty}{\Vert y \Vert \Vert x\Vert}+\frac{x^Ty}{\Vert x \Vert\Vert y \Vert}-1\\ \text{ } \\ =1-2\frac{y^Tx}{\Vert y \Vert \Vert x\Vert}+\frac{y^Tx}{\Vert y \Vert \Vert x\Vert}\frac{x^Ty}{\Vert y \Vert \Vert x\Vert}=\left(1-\frac{y^Tx}{\Vert y \Vert \Vert x\Vert} \right)^2$
矩阵特征值的乘积等于它的行列式值，由此我们应该得到的谱范数应该是： $1-\frac{y^Tx}{\Vert y \Vert \Vert x\Vert}$ ，然而为什么是（1.2.43）的 $\frac{y^Tx}{\Vert y \Vert \Vert x\Vert}$ ?
此处，我证不出来，请诸位有心人帮我看看，多谢多谢！

关于秩一校正矩阵特征值得联锁定理可以表示如下：
定理 1.2.8（联锁特征值定理）：
设 $A$ 是 $n\times n$ 对称矩阵，其特征值为 $\lambda_1\ge\lambda_2\ge\cdots\ge\lambda_n$ ，又设 $\overline A = A+\sigma uu^T$ ，其特征值为 $\overline \lambda_1\ge \overline\lambda_2\ge\cdots\ge\overline\lambda_n$ ，那么：
（1）若 $\sigma\gt 0$ ，则
$\overline \lambda_1\ge \lambda_1\ge\overline\lambda_2\ge\lambda_2\ge\cdots\ge\overline\lambda_n\ge \lambda_n$
（2）若 $\sigma\lt 0$ ，则
$\lambda_1\ge \overline \lambda_1\ge \lambda_2 \ge \overline \lambda_2\ge\cdots\ge \lambda_n\ge \overline\lambda_n$