《统计学习方法》学习笔记第十五章 SVD(singular value decomposition)

最新推荐文章于 2022-05-07 20:55:43 发布

LittleFish0820

最新推荐文章于 2022-05-07 20:55:43 发布

阅读量538

点赞数 2

分类专栏：统计学习方法文章标签：线性代数

本文链接：https://blog.csdn.net/m0_46459047/article/details/112553488

版权

统计学习方法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 奇异值分解的定义与性质

1.1 定义与定理

定义（singular value decomposition） 矩阵的因子分解 $A=U\Sigma V^T$ ， $A\in \mathbb{R}^{m\times n}$ ，满足
$UU^T=I$ $\quad$ m阶orthogonal matrix
$VV^T=I$ $\quad$ n阶正交矩阵
$\Sigma=diag(\sigma_1,\sigma_2,\cdots,\sigma_p)$ ， $\sigma_1\ge\sigma_2\ge\cdots\ge\sigma_p\ge0$
$p=\min(m,n)$
矩阵的奇异值分解不要求矩阵A是方阵，可以看作是方阵的对角化的推广。

任意给定一个实矩阵，其奇异值分解一定存在！
定理（奇异值分解基本定理） $A\in \mathbb{R}^{m\times n}$ ，则A的奇异值分解存在 $A=U\Sigma V^T$ ，其中U和V分别是m阶和n阶正交矩阵， $\Sigma$ 是 $m\times n$ 矩阵对角矩阵，其对角线元素非负，且按降序排列。
（证明太~太长了，不写了。）

1.2 紧奇异值分解与截断奇异值分解

上述定理是完全奇异值分解（full singular value decomposition）

1 compact singular value decomposition

定义 $A\in \mathbb{R}^{m\times n}$ ， $r a n k (A) = r$ ， $r\le \min(m,n)$ ，则 $A=U_r\Sigma_rV_r^T$
$U_r\in \mathbb{R}^{m\times r}$ ，U的前r列
$V_r\in \mathbb{R}^{n\times r}$ ，V的前r列
$\Sigma_r\in \mathbb{R}^{r\times r}$ ， $\Sigma$ 的前r个对角线元素
$rank(\Sigma_r)=rank(A)$

2 truncated singular value decomposition

定义 $A\in \mathbb{R}^{m\times n}$ ， $r a n k (A) = r$ ， $0 < k < r$ ，则 $A\approx U_k\Sigma_kV_k^T$
$U_k\in \mathbb{R}^{m\times k}$ ，U的前k列
$V_k\in \mathbb{R}^{n\times k}$ ，V的前k列
$\Sigma_k\in \mathbb{R}^{k\times k}$ ， $\Sigma$ 的前k个对角线元素
$rank(\Sigma_k)<rank(A)$

紧奇异值分解对应着无损压缩，截断奇异值分解对应着有损压缩。

1.3 几何解释

复习线性变换： $A_{m\times n}$ 表示从 $R^n$ 到 $R^m$ 的一个线性变换， $T:x\to Ax$ 。
线性变换可以分解为三个简单的变换：
①一个坐标系的旋转或反射变换；
②一个坐标轴的缩放变换；
③另一个坐标系的旋转或反射变换。

$A=U\Sigma V^T$
$V$ 的列向量 $v_1,v_2,\cdots,v_n$ 构成 $R^n$ 空间的一组标准正交基，表示 $R^n$ 中的正交坐标系的旋转或反射变换；
$U$ 的列向量 $u_1,u_2,\cdots,u_n$ 构成 $R^m$ 空间的一组标准正交基，表示 $R^m$ 中的正交坐标系的旋转或反射变换；
$\Sigma$ 的对角元素 $\sigma_1,\sigma_2,\cdots,\sigma_n$ 表示 $R^n$ 中的原始正交坐标系坐标轴的 $\sigma_1,\sigma_2,\cdots,\sigma_n$ 的缩放变换。

综上，矩阵的奇异值分解可以看作是将其对应的线性变换分解为旋转变换、缩放变换及旋转变换的组合。根据奇异值分解基本定理，这个变换的组合一定存在。

1.4 主要性质

1 $A=U\Sigma V^T$
$A^TA=(U\Sigma V^T)^T(U\Sigma V^T)=V(\Sigma^T\Sigma)V^T$
$AA^T=(U\Sigma V^T)(U\Sigma V^T)^T=U(\Sigma\Sigma^T)U^T$
矩阵 $A^TA$ 和 $AA^T$ 的特征分解存在，V的列向量是 $A^TA$ 的特征向量，U的列向量是 $AA^T$ 的特征向量， $\Sigma$ 的奇异值是 $A^TA$ 和 $AA^T$ 的特征值的平方根。

2 奇异值、左、右奇异向量之间的关系
(1) $AV=U\Sigma$
比较这一等式两端的第j列，得到 $Av_j=\sigma_ju_j,\quad j=1,2,\cdots,n$ ，这是矩阵A的右奇异向量和奇异值、左奇异向量的关系。
(2) $A^TU=V\Sigma^T$
比较这一等式两端的第j列，得到
$A^Tu_j=\sigma_jv_j,\quad j=1,2,\cdots,n$ ，
$A^Tu_j=0,\quad j=n+1,n+2,\cdots,m$
这是矩阵A的左奇异向量和奇异值、右奇异向量的关系。

3 奇异值唯一，U和V不唯一。

4 $rank(A)=rank(\Sigma)$ ，等于 $\sigma_i$ 的个数 $r$ (包含重复的奇异值)。

5 不想看。

2 奇异值分解的计算

① 求 $A^TA$ 的特征值和特征向量
② 求 $V_{n\times n}$
③ 求 $\Sigma_{m\times n}$

④ 求 $U_{m\times m}$
对A的前r个正奇异值，令 $u_j=\frac{1}{\sigma_j}Av_j,\quad j=1,2,\cdots,r$
得到 $U_1=[u_1\quad u_2\quad\cdots\quad u_r]$
然后求 $A^T$ 的零空间的一组标准正交基 $\{u_{r+1},u_{r+2},\cdots,u_m\}$
令 $U_2=[u_{r+1}\quad u_{r+2}\quad\cdots\quad u_m]$
$U=[U_1\quad U_2]$

⑤ 得到奇异值分解 $A=U\Sigma V^T$

3 奇异值分解与矩阵近似

3.1 Frobenius norm

Definition(Frobenius norm) $A\in\mathbb R^{m\times n}$ ， $A=[a_{ij}]_{m\times n}$ ， $||A||_F=\bigg(\sum\limits_{i=1}^m\sum\limits_{j=1}^na_{ij}^2\bigg)^\frac{1}{2}$

Lemma $A\in\mathbb R^{m\times n}$ ， $A=U\Sigma V^T$ ， $\Sigma=diag(\sigma_1,\sigma_2,\cdots,\sigma_n)$ ，则 $||A||_F=(\sigma_1^2+\sigma_2^2+\cdots+\sigma_n^2)^\frac{1}{2}$

3.2 矩阵的最优近似

奇异值分解是在平方损失（Frobenius norm）意义下对矩阵的最优近似，即数据压缩。

Theorem 1 $A\in\mathbb R^{m\times n}$ ， $r a n k (A) = r$ ， $M=\{X\in \mathbb R^{m\times n}|rank(X)\le k,0<k<r\}$ ，则 $\exist X\in M$ ， $r a n k (X) = k$ ，使得 $||A-X||_F=\min\limits_{S\in M}||A-S||_F$ ，称矩阵X为矩阵A在Frobenius norm意义下的最优近似。

Theorem 2 $A\in\mathbb R^{m\times n}$ ， $r a n k (A) = r$ ， $A=U\Sigma V^T$ ， $M=\{X\in \mathbb R^{m\times n}|rank(X)\le k,0<k<r\}$ ，若 $X\in M$ 且 $r a n k (X) = k$ 满足 $||A-X||_F=\min\limits_{S\in M}||A-S||_F$ ，则 $||A-X||_F=(\sigma_{k+1}^2+\sigma_{k+2}^2+\cdots+\sigma_n^2)^\frac{1}{2}$
特别地，若 $A^\prime=U\Sigma^\prime V^T$ ，其中 $\Sigma^\prime=\left[ \begin{matrix} \Sigma_k & 0\\ 0& 0 \end{matrix} \right]$ ，则
$||A-A^\prime||_F=(\sigma_{k+1}^2+\sigma_{k+2}^2+\cdots+\sigma_n^2)^\frac{1}{2}=\min\limits_{S\in M}||A-S||_F$ .

3.3 矩阵的外积展开式

$U\Sigma=[\sigma_1u_1 \quad\sigma_2u_2\quad\cdots\quad\sigma_nu_n]$
$V^T=[v_1\quad v_2\quad\cdots\quad v_n]^T$
$A=\sigma_1u_1v_1^T+\sigma_2u_2v_2^T+\cdots+\sigma_nu_nv_n^T$ 称为矩阵A的外积展开式。

$u_iv_j^T=\left[ \begin{matrix} u_{1i}\\ u_{2i}\\ \vdots\\ u_{mi} \end{matrix} \right]\left[v_{1j}\quad v_{2j} \quad\cdots\quad v_{nj}\right]$

$A=\sum\limits_{k=1}^nA_k=\sum\limits_{k=1}^n\sigma_ku_kv_k^T,\quad A_k=\sigma_ku_kv_k^T\in R^{m\times n}$

若 $r a n k (A) = n$ ，则 $A=\sigma_1u_1v_1^T+\sigma_2u_2v_2^T+\cdots+\sigma_nu_nv_n^T$

设 $A_{n-1}=\sigma_1u_1v_1^T+\sigma_2u_2v_2^T+\cdots+\sigma_{n-1}u_{n-1}v_{n-1}^T$ ，则 $rank(A_{n-1})=n-1$ ，且 $A_{n-1}$ 是秩为 $n - 1$ 矩阵在Frobenius norm意义下A的最优近似矩阵。以此类推。

通常奇异值 $\sigma_i$ 递减很快，所以k取很小值时， $A_k$ 也可以对A有很好的近似。

总结

唉，一章比一章难起来了！这一章书上有两大证明我略过去了，说实话没必要弄懂证明是不是？公式打得好累，矩阵看得头疼！但是会做题就行了，例题可以自行翻书，我就不搬上来了，超级简单，作者为了照顾我们这些渣渣真的有心了！如果有书写错误可以告诉我哦，抱拳~

LittleFish0820

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》学习笔记第十五章 SVD(singular value decomposition)

目录1 奇异值分解的定义与性质1.1 定义与定理1.2 紧奇异值分解与截断奇异值分解1 compact singular value decomposition2 truncated singular value decomposition1.3 几何解释1.4 主要性质2 奇异值分解的计算3 奇异值分解与矩阵近似3.1 Frobenius norm3.2 矩阵的最优近似3.3 矩阵的外积展开式总结1 奇异值分解的定义与性质1.1 定义与定理定义（singular value decompositio
复制链接

扫一扫