Lecture 7:Eckart-Young: The Closest Rank k Matrix to A

最新推荐文章于 2023-12-05 15:42:41 发布

扬州小栗旬

最新推荐文章于 2023-12-05 15:42:41 发布

阅读量1.6k

点赞数 4

分类专栏： MIT 18.065 Matrix Methods

本文链接：https://blog.csdn.net/weixin_37616971/article/details/101054857

版权

MIT 18.065 Matrix Methods 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

Eckart-Young: The Closest Rank k Matrix to A

1 Eckart-Young Theorem(low rank approximation)

If $B$ has rank $k$ , then $\lVert A-B \rVert \ge \lVert A-A_k \rVert$

说明在所有秩(rank)为 $k$ 的矩阵中，离 $A$ 最近的是 $A_k$ ，其中：
$A=U\Sigma V^T=\sigma_1\mathbf{u_1}\mathbf{v_1}^T+\sigma_2\mathbf{u_2}\mathbf{v_2}^T+...+\sigma_r\mathbf{u_r}\mathbf{v_r}^T \\ A_k=U_k\Sigma_k V_k^T=\sigma_1\mathbf{u_1}\mathbf{v_1}^T+\sigma_2\mathbf{u_2}\mathbf{v_2}^T+...+\sigma_k\mathbf{u_k}\mathbf{v_k}^T$

$\sigma_1 \ge \sigma_1 \ge...\ge \sigma_r > 0$

例如，对于一个矩阵 $A$ ：
$\left( \begin{array}{ccc} 4 & 0&0&0 \\ 0&3&0&0\\ 0&0&2&0\\ 0& 0&0&1 \end{array} \right)$
可以验证，对角线分别为矩阵的奇异值，则 $A_2$ 定义为：
$A_2= \left( \begin{array}{ccc} 4 & 0&0&0 \\ 0&3&0&0\\ 0&0&0&0\\ 0& 0&0&0 \end{array} \right)$
可以验证 $A_2$ 是所以rank为2的矩阵中离 $A$ 最近的，相当于是 $A$ 的低维矩阵近似。

2 Vector Norm(向量范式)

定义为:
$\lVert \mathbf{v} \rVert_p = (\sum_{i=1}^n \lvert v_i \rvert^p)^{1/p}$

根据p的不同有以下形式

L1 Norm
$\lVert \mathbf{v} \rVert_1 = \lvert v_1 \rvert + \lvert v_2 \rvert +...+\lvert v_n \rvert$
L2 Norm
$\lVert \mathbf{v} \rVert_2 = \sqrt{\lvert v_1 \rvert^2 + \lvert v_2 \rvert^2 +...+\lvert v_n \rvert^2}$
Infinity Norm
$\lVert \mathbf{v} \rVert_{\infty} = \max_i \lvert v_i\rvert$

Properties:

$\begin{aligned} \text{(1)} \qquad&\lVert c\mathbf{v} \rVert = \lvert c \rvert \cdot \lVert \mathbf{v} \rVert \\ \text{(2)} \qquad&\lVert \mathbf{v} + \mathbf{w} \rVert \le \lVert \mathbf{v} \rVert + \lVert \mathbf{w} \rVert \end{aligned}$

首先证明L1 Norm，令 $\mathbf{v}=[v_1, v_2,..,v_n]^T$ ，则 $\lVert \mathbf{v} \rVert_1 = \lvert v_1 \rvert + \lvert v_2 \rvert +...+\lvert v_n \rvert$
$\begin{aligned} \lVert c\mathbf{v} \rVert_1 &= \lvert cv_1 \rvert + \lvert cv_2 \rvert +...+\lvert cv_n \rvert \\ &=\lvert c \rvert\lvert v_1 \rvert + \lvert c \rvert\lvert v_2 \rvert +...+\lvert c \rvert\lvert v_n \rvert \\ &= \lvert c \rvert(\lvert v_1 \rvert + \lvert v_2 \rvert +...+\lvert v_n \rvert) \\ &=\lvert c \rvert \cdot \lVert \mathbf{v} \rVert_1 \end{aligned}$
令 $\mathbf{w}=[w_1, w_2,..,w_n]^T$ ，则 $\mathbf{v} + \mathbf{w}=[v_1+w_1, v_2+w_2,..,v_n+w_n]^T$
$\begin{aligned} \lVert \mathbf{v} + \mathbf{w} \rVert_1 &= \lvert v_1 + w_1 \rvert + \lvert v_2+w_2 \rvert +...+\lvert v_n+w_n \rvert \\ \lVert \mathbf{v} \rVert_1 + \lVert \mathbf{w} \rVert_1 &= (\lvert v_1\rvert + \lvert w_1 \rvert) + (\lvert v_2 \rvert + \lvert w_2 \rvert) +...+ (\lvert v_n \rvert + \lvert w_n \rvert) \end{aligned}$
又对于任意两个实数 $x, y$ ， $\lvert x + y \rvert \le \lvert x\rvert + \lvert y \rvert$ ，所以 $\lVert \mathbf{v} + \mathbf{w} \rVert_1 \le \lVert \mathbf{v} \rVert_1 + \lVert \mathbf{w} \rVert_1$ 成立。

L2 Norm，有 $\lVert \mathbf{v} \rVert_2 = \sqrt{\lvert v_1 \rvert^2 + \lvert v_2 \rvert^2 +...+\lvert v_n \rvert^2}$
$\begin{aligned} \lVert c\mathbf{v} \rVert_2 &= \sqrt{\lvert cv_1 \rvert^2 + \lvert cv_2 \rvert^2 +...+\lvert cv_n \rvert^2} \\ &=\sqrt{\lvert c \rvert^2\lvert v_1 \rvert^2 + \lvert c \rvert^2\lvert v_2 \rvert^2 +...+\lvert c \rvert^2\lvert v_n \rvert^2} \\ &= \sqrt{\lvert c \rvert^2(\lvert v_1 \rvert^2 + \lvert v_2 \rvert^2 +...+\lvert v_n \rvert^2)} \\ &=\lvert c \rvert\sqrt{\lvert v_1 \rvert^2 + \lvert v_2 \rvert^2 +...+\lvert v_n \rvert^2} \\ &=\lvert c \rvert \cdot \lVert \mathbf{v} \rVert_2 \\ \end{aligned}$

性质(1)证明完毕。

$\begin{aligned} \lVert \mathbf{v} + \mathbf{w} \rVert_2 &= \sqrt{\lvert v_1+w_1 \rvert^2 + \lvert v_2+w_2 \rvert^2 +...+\lvert v_n+w_n \rvert^2} \\ &=\sqrt{\sum_{i=1}^n \lvert v_i+w_i \rvert^2}\\ &=\sqrt{\sum_{i=1}^n {(v_i+w_i)}^2}\\ \lVert \mathbf{v} \rVert_2 + \lVert \mathbf{w} \rVert_2 &= \sqrt{\lvert v_1 \rvert^2 + \lvert v_2 \rvert^2 +...+\lvert v_n \rvert^2}+\sqrt{\lvert w_1 \rvert^2 + \lvert w_2 \rvert^2 +...+\lvert w_n \rvert^2} \\ &=\sqrt{\sum_{i=1}^n \lvert v_i \rvert^2} + \sqrt{\sum_{i=1}^n \lvert w_i \rvert^2} \end{aligned}$

因为都是不小于0的实数，可以通过其平方比较大小:
$\begin{aligned} {\lVert \mathbf{v} + \mathbf{w} \rVert_2}^2 &=\sum_{i=1}^n {(v_i+w_i)}^2 \\ &=\sum_{i=1}^n {(v_i^2+2v_iw_i+w_i^2)} \\ &=\sum_{i=1}^n {v_i^2}+2\sum_{i=1}^n {v_iw_i}+\sum_{i=1}^n {w_i^2}\\ {\lVert \mathbf{v} \rVert_2 + \lVert \mathbf{w} \rVert_2}^2 &={\left ( \sqrt{\sum_{i=1}^n v_i^2} + \sqrt{\sum_{i=1}^n w_i^2} \right)} ^2 \\ &=\sum_{i=1}^n v_i^2 +2\sqrt{\sum_{i=1}^n v_i^2\sum_{i=1}^n w_i^2} + \sum_{i=1}^n w_i^2 \end{aligned}$

由柯西不等式(Cauchy–Schwarz Inequality) $\sum_{i=1}^nx_i^2 \sum_{i=1}^n y_i^2 \ge \left (\sum_{i=1}^n x_iy_i \right )^2$ ，则有:
$\sqrt{\sum_{i=1}^n v_i^2\sum_{i=1}^n w_i^2}\ge\sqrt{\left (\sum_{i=1}^n v_iw_i \right )^2} \ge \lvert \sum_{i=1}^n v_iw_i \rvert \ge \sum_{i=1}^n v_iw_i$
所以 $\lVert \mathbf{v} + \mathbf{w} \rVert_2 \le \lVert \mathbf{v} \rVert_2 + \lVert \mathbf{w} \rVert_2$ 成立，性质(2)证明完毕。

3 Matrix Norm(矩阵范式)

用 $\lVert A\rVert$ 表示矩阵 $A$ 的范式，下面给出几个矩阵范式的形式

L2 Norm
$\lVert A\rVert_2 = \sigma_1$
Frobenius Norm
$\lVert A\rVert_F = \sqrt{\sum_{i=1}^n\sum_{j=1}^m{(a_{ij})}^2}= \sqrt{a_{11}^2+...+a_{1m}^2+...+a_{n1}^2+...+a_{nm}^2}$
Nuclear Norm
$\lVert A\rVert_{Nuclear} = \sigma_1+\sigma_2+...+\sigma_r$
Netflix的推荐系统和MRI中会应用到这个范式。

3 Pincipal Components Analysis(PCA)

假设有 $N$ 个人的身高年龄的数据，存储在 $A_o$ 中 $A_o= \left( \mathbf{v_1},\mathbf{v_2},...,\mathbf{v_N} \right)$ ，其中 $\mathbf{v_i}\in \mathbb{R}^2,(i=1,..,N)$ ，令其第一维代表身高，第二维代表年龄。

首先进行正则化， $A_o- \left ( \begin{array}{ccc} a_h & a_h&...&a_h \\ a_a&a_a&...&a_a\end{array}\right )$ ，其中 $a_h=\frac{1}{N}\sum_{i=1}^Nv_{i1}$ ， $a_a=\frac{1}{N}\sum_{i=1}^Nv_{i2}$ ，分别代表身高和年龄的平均值。PCA就是找到下图的一条线，实际上就是 $age=\sigma_1\cdot height$ ：

其实是一个最小化问题，协方差矩阵(covariance matrix)定义为 $S=\frac{AA^T}{N-1}$ ，则我们称协方差矩阵的单位特征向量为数据的主成分(principal components)，第一主成分是 $S$ 中最大特征值对应的特征向量，以此类推。

注意与最小二乘(least squares)的区别，最小二乘图如下，三个点的least squres，实际上是最小化图上的三个距离之和：

扬州小栗旬

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Lecture 7:Eckart-Young: The Closest Rank k Matrix to A

Eckart-Young: The Closest Rank k Matrix to A1 Eckart-Young Theorem(low rank approximation)If BBB has rank kkk, then ∥A−B∥≥∥A−Ak∥\lVert A-B \rVert \ge \lVert A-A_k \rVert∥A−B∥≥∥A−Ak∥说明在所有秩(rank)为...
复制链接

扫一扫