Matrix Rank Minimization with Application精简版

dew_142857

已于 2022-02-22 10:13:36 修改

阅读量787

点赞数 1

分类专栏：凸优化算法文章标签：算法矩阵线性代数

于 2022-02-22 10:13:04 首次发布

本文链接：https://blog.csdn.net/qq_44955314/article/details/122461618

版权

算法同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

凸优化

4 篇文章 0 订阅

订阅专栏

问题陈述

Rank Minimization Problem (RMP):
$\min\quad\textrm{rank}(X)\\ \textrm{s.t.}\quad X\in C$
其中 $X\in\R^{m\times n}$ 是自变量， $C$ 是一个凸集。

该问题是一个NP-hard问题
引起广泛应用
需要找到参数少、低阶、低复杂度的简单模型

方法

Exact methods

特殊情况下的解析解（SVD，EV）

$\min\quad\textrm{rank}(X)\\ \textrm{s.t.}\quad\lVert X-A\rVert_{2,F}\le b$

solution：A是缺失大量值的矩阵，X是将缺失值补全的矩阵
- A的奇异值分解的 r 个最大项的和， $\sigma_{r+1}\le b$ 下 r 个最小的数.
applications：因子分析、MDS、阵列信号处理、子空间方法、…

能简化为凸问题的特殊情况

一般情况：全局优化（分支和边界）

impractical for problem sizes of interest

Heuristic methods

分解法

idea: $\textrm{rank}(X)\le r\quad$ iff $\exist\;F,G\quad$ s.t. $X = F G$ , where $F\in\R^{m\times r}, G\in\R^{r\times n}$
comments:
- a. 要求用户提供的初始点——non-trivial
- b. 根据经验，它的性能比其他方法差

交替投影：

idea: 交替投影到秩不变和约束集的一系列矩阵上。
comments:
- a. 要求用户提供的初始点——non-trivial
- b. 通常需要大量的迭代（100秒，甚至1000秒），因此，如果不能解析地完成迭代，计算成本非常高

Analytic anti-centering/potential reduction

期望低秩解位于可行解的边界上。（内点法中的）牛顿法遵循从边界到解析中心的路径。

idea: 沿着牛顿路径从解析中心到边界
comments:
- 要求用户提供的初始点（并且对它高度敏感）
- 只适用于半正定（PSD, Positive Semidefinite）矩阵
- 实现复杂

新方法

1 Trace heuristic for PSD matrices

observation: 对于 $X=X^T\ge0$ ，最小化迹在实践中往往给出低秩解。
建议如下：
$\textrm{RMP:}\\ \min\quad\textrm{rank}(X)\\ \textrm{s.t.}\quad X\in C$
$\textrm{Trace heuristic:}\\ \min\quad\textrm{Tr}(X)\\ \textrm{s.t.}\quad X\in C$

简单而有效
凸问题，因此可以有效地解决，不需要初始点
如果可行解有界，则给出目标的下边界

变体：加权迹最小化
$\begin{aligned}&\min\quad\textrm{Tr}(WX)\\ &\textrm{ s.t. }\quad X\in C\end{aligned}$
其中 $W=W^T>0$ .

intuition: 用凸函数 $\textrm{Tr}(X)$ 替换 $\textrm{rank}(X)$

注： $\textrm{rank}(X) =$ 非零的 $\lambda_i$ 的数量， $\textrm{Tr}(X) = \sum_i\lambda_i$
其中， $\lambda_i$ 是 $X$ 的特征值.
如果 $\lambda_i\le1$ ，则 $\textrm{Tr}(X)\le\textrm{rank}(X)$
适用条件： 当且仅当 $X=X^T\ge0$

2 Log-det heuristic for PSD matrices

对于 $X=X^T\ge0$ ，
$\textrm{RMP:}\\ \begin{aligned}&\min\quad\textrm{rank}\;X\\ &\textrm{ s.t. }\quad X\in C\end{aligned}$
$\textrm{Log-det heuristic:}\\ \begin{aligned}&\min\quad\log\det(X+\delta I)\\ &\textrm{ s.t. }\quad X\in C\end{aligned}$

目标是 非凸的（实际上是凹的）
可以使用任何局部优化方法，找到局部最小值；特别是，可以迭代线性化，并在每一步解决线性化（凸）问题。

由此产生迭代法：
$X_{k+1}=\argmin_{X\in C}\;\textrm{Tr}((X_k+\delta I)^{-1}X)$
即，迭代加权迹最小化：
$X_{k+1}=\argmin_{X\in C}\;\textrm{Tr}(W_kX)\\ W_k=(X_k+\delta I)^{-1}$

每次迭代都是一个凸问题，因此得到了有效的解决
可以显示迭代收敛到 $\log\det(X+\delta I)$ 的局部最小值（利用 $\log\det(X+\delta I)$ 在 $X$ 上的凹特性）
如果 $X_0=I$ ，那么第一次迭代与 trace heuristic 相同（因此，迭代细化为 trace heuristic的结果）
在实践中，需要很少的迭代（大概5-6次）

intuition:

注： $\textrm{rank}(X)= \lambda_i$ 中非零元素的个数，
$\log\det(X+\delta I)=\log\prod_i(\lambda_i+\delta)=\sum_i\log(\lambda_i+\delta)$

适用条件： 当且仅当 $X=X^T\ge0$

3 Semidefinite embedding

question: 我们能否将后两种 heuristics 推广到一般矩阵？

引理： 令 $X\in\R^{m\times n}$ ，则 $\textrm{rank}(X)\le r\quad \textrm{iff}\;\exist\;Y=Y^T\in\R^{m\times m}\;\textrm{and}\; Z=Z^T\in\R^{n\times n}\quad\textrm{s.t.}$
$\textrm{rank}\begin{bmatrix}Y&0\\0&Z\end{bmatrix}\le2r,\quad\begin{bmatrix}Y&X\\X^T&Z\end{bmatrix}\ge0$

结论： 可以将一般矩阵的秩与 PSD（对称）矩阵的秩联系起来，因此，可以将一般秩问题嵌入到一个只涉及PSD矩阵的更大的秩问题中。

证明：
假设 $\textrm{rank}(X)=r_0\le r$ ，then $X=LR,L\in\R^{m\times r_0},R\in\R^{r_0\times n}$ ，且 $\textrm{rank}(L)=\textrm{rank}(R)=r_0$ .
令 $Y=LL^T, Z=R^TR$ 满足引理的条件，
$\begin{bmatrix}Y&X\\X^T&Z\end{bmatrix}=\begin{bmatrix}L\\R^T\end{bmatrix}\begin{bmatrix}L^T&R\end{bmatrix}\ge0$
$\Leftarrow$ w.l.o.g[^5]，假设 $\textrm{rank}(Y)\le\textrm{rank}(Z)$ ，Schur补充
$\begin{bmatrix}Y&X\\X^T&Z\end{bmatrix}\ge0\Leftrightarrow\begin{cases}\textrm{(i)}&Y>0\\\textrm{(ii)}&X^T(I-YY^{\dag})=0\\\textrm{(iii)}&Z-X^TY^{\dag}X\ge0\end{cases}$
根据 (ii) ，利用 $\textrm{rank}(X)=n-\dim\;N(X)=m-\dim\;N(X^T)$ 得到
$\begin{aligned}N(X^T)\supe N(Y)\qquad&\Rightarrow\qquad\dim\;N(X^T)\ge\dim\;N(Y),\\&\Rightarrow\qquad\textrm{rank}(Y)\ge\textrm{rank}(X^T)=\textrm{rank}(X)\end{aligned}$
因此， $2\textrm{rank}(X)\le\textrm{rank}(Y)+\textrm{rank}(Z)$ 或者 $\textrm{rank}(X)\le r$ .

RMP的等效PSD形式

回归于 RMP
$\begin{aligned}&\min&&\textrm{rank}(X)\\ &\textrm{ s.t.}&&X\in C\end{aligned}$
通过嵌入引理，它等价于
$\min\quad\textrm{rank}\begin{bmatrix}Y&0\\0&Z\end{bmatrix}\\ \textrm{ s.t. }\quad\begin{bmatrix}Y&X\\X^T&Z\end{bmatrix}\ge0$
其中，变量 $X\in\R^{m\times n}, Y\in\R^{m\times m}, z\in\R^{n\times n}$

$X$ 是一般的矩阵， $Y$ 和 $Z$ 是对称的PSD矩阵
任意最小化PSD矩阵秩的方法都适用
可以利用 $X$ 的结构（如：块对角、对称）来减少变量的数量

4 Trace heuristic for general matrices

将 trace heuristic 应用于 RMP 的 PSD形式，得出
$\begin{aligned}&\min&&\textrm{Tr}\begin{bmatrix}Y&0\\0&Z\end{bmatrix}\\ &\textrm{ s.t.}&&\begin{bmatrix}Y&X\\X^T&Z\end{bmatrix}\ge0\\&&&X\in C\end{aligned}$
这表明，它是等价于
$\begin{aligned}&\min&&\lVert X\rVert_*\\ &\textrm{ s.t. }&&X\in C\end{aligned}$
其中 $X$ 的核范数 $\lVert X\rVert_*=\sum_i\sigma_i(X)$ 是谱范数（或最大奇异值）的对偶。

question: 如何将 $\lVert X\rVert_*$ 和 $\textrm{rank}(X)$ 联系起来？

定理2： $\lVert X\rVert_*$ 是 $\textrm{rank}(X)$ 在集合 $\{X\in\R^{m\times n}\;|\;\lVert X\rVert\le1\}$ 上的凸包

结论：

trace heuristic在有界集上最小化秩的凸包（即：秩的最优凸近似）
如果可行解有界，heuristic提供目标（可以合并到分支定界方法中）的下界

该定理为 trace heuristic的使用提供了理论支撑。

特例：向量的 $l_1$ heuristic

假设 $X=\textrm{diag}(x),x\in\R^n$ ，应用 trace heuristic 得到
$\begin{aligned}&\min&&\lVert x\rVert_1\\ &\textrm{ s.t.}&&x\in C\end{aligned}$

寻找稀疏解的著名的 $l_1$ heuristic
$\lVert x\rVert_1$ 是满足 $\{x | \lVert x\rVert_\infin\le1\}$ 的 $x$ 非零个数的凸包
因此，trace heuristic可以被看作 $l_1$ heuristic对矩阵的扩展

5 Log-det heuristic for general matrices

将 log-det heuristic 应用于 RMP 的 PSD形式，得出
$\begin{aligned}&\min&&\log\det\biggl(\begin{bmatrix}Y&0\\0&Z\end{bmatrix}+\delta I\biggr)\\ &\textrm{s.t.}&&\begin{bmatrix}Y&X\\X^T&Z\end{bmatrix}\ge0\\ &&&X\in C\end{aligned}$
它等价于
$\begin{aligned}&\min&&\sum_i\log(\sigma_i(X)+\delta)\\ &\textrm{ s.t.}&&X\in C\end{aligned}$
可以像之前一样迭代线性化，得到 $X, Y, Z$ 的迭代值。

特例：向量的迭代 $l_1$ heuristic

假设 $X=\textrm{diag}(x), x\in\R^n$ ，结合 log-det heuristic 得到
$\begin{aligned}&\min&&\sum_i\log(\lvert x_i\rvert+\delta)\\ &\textrm{ s.t.}&&x\in C\end{aligned}$
迭代线性化和最小化，得到
$\begin{aligned}x^{(k+1)}\quad&=&&\argmin_{x\in C}\sum_iw_i^{(k)}\lvert x_i\rvert\\ w_i^{(k)}\quad&=&&\dfrac1{\lvert x_i^{(k)}\rvert+\delta} \end{aligned}$