15-奇异值分解

最新推荐文章于 2024-04-23 23:38:26 发布

Alexa2077

最新推荐文章于 2024-04-23 23:38:26 发布

阅读量718

点赞数

分类专栏：统计学习方法文章标签：线性代数矩阵机器学习

本文链接：https://blog.csdn.net/Alexa_/article/details/127583971

版权

统计学习方法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

奇异值分解

1-奇异值分解的定义与性质
2-奇异值分解与矩阵近似

导读：
奇异值分解singular value decomposition-SVD:是一种矩阵因子分解方法，是线性代数的概念。

本书中主成分分析，潜在语义分析都用到了奇异值分解。
奇异值分解可以看作是矩阵数据压缩的一种方法，即用因子分解的方式近似地表示原始矩阵，这种近似是在平方损失下的最优近似。

1-奇异值分解的定义与性质

1.1 定义

奇异值分解：将一个非零的 $m * n$ 实矩阵 $A，A\in R^{m*n}$ ，可以表示为以下三个实矩阵乘积运算，即进行矩阵的因子分解：
$\Sigma V^{T}$
U是m阶正交矩阵(orthogonal matrix)
V是n阶正交矩阵
$\Sigma$ 是由降序排列的非负的对角线元素组成的 $m * n$ 矩形对角矩阵(rectangular diagonal matrix)
$UU^{T}=I$ $VV^{T}=I$ $\Sigma =diag(\sigma_1,\sigma_2,...\sigma_p)$ $\sigma_1 \ge \sigma_2 \ge ...\sigma_p \ge 0$ $p = min (m, n)$
$\sigma_i$ 称为矩阵A的奇异值
$U$ 的列向量为左奇异向量
$V$ 的列向量为右奇异向量
矩阵的奇异值分解不是唯一的

1.2 紧奇异值分解

上述的奇异值分解， $A=U\Sigma V^{T}$ ，称为矩阵的完全奇异值分解。紧奇异值分解是与原始矩阵等秩的奇异值分解

紧奇异值分解：有一 $m * n$ 实矩阵 $A$ ，其秩为 $rank(A)=r,r\le min(m,n)$ ,则A的紧奇异值分解(compact singular value decomposition)为：
$A=U_r \Sigma_r V_r^{T}$
$U_r$ 是 $m * r$ 阶矩阵，完全奇异值分解中 $U$ 的前 $r$ 列
$V_r$ 是 $n * r$ 矩阵，完全奇异值分解中 $V$ 的前 $r$ 列
$\Sigma_r$ 是 $\Sigma$ 的前 $r$ 个对角线元素得到
紧奇异值分解的对角矩阵 $\Sigma_r$ 的秩与原始矩阵 $A$ 的秩相等

1.3 截断奇异值分解

截断奇异值分解：在矩阵的奇异值分解中，只取最大的 $k$ 个奇异值( $k < r, r$ 为矩阵的秩)对应的部分。截断奇异值分解是比原始矩阵低秩的奇异值分解

截断奇异值分解：有一 $m * n$ 实矩阵 $A$ ，其秩为 $r ank (A) = r, 0 < k < r$ ,则A的截断奇异值分解(truncated singular value decomposition)为：
$\approx U_k \Sigma_k V_k^{T}$
$U_k$ 是 $m * k$ 阶矩阵，完全奇异值分解中 $U$ 的前 $k$ 列
$V_k$ 是 $n * k$ 矩阵，完全奇异值分解中 $V$ 的前 $k$ 列
$\Sigma_k$ 是 $k$ 阶对角阵， $\Sigma$ 的前 $k$ 个对角线元素得到
截断奇异值分解的对角矩阵 $\Sigma_k$ 的秩与原始矩阵 $A$ 的秩低

在实际应用中，常常需要对矩阵的数据进行压缩，将其近似表示。奇异值分解是在平方损失（弗罗贝尼乌斯范数）意义下对矩阵的最优近似。
紧奇异值分解——无损压缩
截断奇异值分解——有损压缩

1.4 几何解释

从线性变换的角度来看，奇异值分解将 $m * n$ 矩阵的 $A$ 表示从 $n$ 维空间 $R^n$ 到 $m$ 维空间 $R^m$ 的一个线性变换，主要分为以下三个简单变换，且这种变换分解一定存在。
一个坐标系的旋转或反射变换： $V^T$
一个坐标轴的缩放变换： $\Sigma$
一个坐标系的旋转或反射变换： $U$

奇异值分解的计算计算过程，可参考例15.5，计算量不大，推导就可以理解。

2-奇异值分解与矩阵近似

2.1 弗罗贝尼乌斯范数

奇异值分解也是一种矩阵近似的方法，这个近似是在弗罗贝尼乌斯范数（Frobenius norm）意义下的近似。
矩阵的弗罗贝尼乌斯范数是向量的L2范数的直接推广，对应着机器学习中的平方损失函数
弗罗贝尼乌斯范数：设矩阵 $\in R^{m*n},A=[a_{ij}]_{mn}$ ，则范数为：
$\parallel A \parallel _F =(\sum_{i=1}^{m} \sum_{j=1}^{n}(a_{ij})^2 ) ^{1/2}$
引理15.1：假设矩阵 $\in R^{m*n}$ ,A的奇异值分解为 $\Sigma V^T$ ,其中 $\Sigma = diag(\sigma_1,\sigma_2,...\sigma_n)$ ,则：
$\parallel A \parallel _F =(\sigma_1^2+\sigma_2^2+...+\sigma_n^2) ^{1/2}$

2.2 矩阵的最优近似

奇异值分解是在平方损失（弗罗贝尼乌斯范数）意义下对矩阵的最优近似，即数据压缩

紧奇异值分解：是在弗罗贝尼乌斯范数意义下的无损压缩
截断奇异值分解：是有损压缩。截断奇异值分解得到的矩阵的秩为k，通常远小于原始矩阵的秩r，所以是由低秩矩阵实现了对原始矩阵的压缩

2.3 矩阵的外积展开

矩阵 $A$ 的奇异值分解 $\Sigma V^T$ 可以由外积形式表示
- 将 $A$ 的奇异值分解看成矩阵 $\Sigma$ 和 $V^T$ 的乘积，将 $U\Sigma$ 按列向量分块，将 $V^T$ 按行向量分块，得到：
  $U\Sigma = [\sigma_1u_1 ,\sigma_2u_2,...\sigma_nu_n]$ $V^T =\begin{bmatrix}v_1^T \\v_2^T \\... \\v_n^T \end{bmatrix}$
  则：
  $A=\sigma_1u_1v_1^T+\sigma_2u_2v_2^T+...+\sigma_nu_nv_n^T$
- A为矩阵的外积展开
- $u_kv_k^T$ 是 $m * n$ 矩阵，是列向量 $u_k$ 和行向量 $v_k^T$ 的外积
设 $A_{n-1} =\sigma_1u_1v_1T+ \sigma_2u_2v_2^T+...+\sigma_{n-1}u_{n-1}v_{n-1}^T$ ，则 $rank(A_{n-1})=n-1$ ，且 $A_{n-1}$ 是秩为 $n - 1$ 的矩阵在弗罗贝尼乌斯范数意义下 $A$ 的最优近似矩

一般的，设矩阵： $A_{k} =\sigma_1u_1v_1T+ \sigma_2u_2v_2^T+...+\sigma_{k}u_{k}v_{k}^T$ ，则 $rank(A_{k}) = k$ ，且 $A_{k}$ 是秩为 $k$ 的矩阵在弗罗贝尼乌斯范数意义下 $A$ 的最优近似矩阵.
矩阵 $A_k$ 就是 $A$ 的截断奇异值分解。