奇异值分解

最新推荐文章于 2023-04-13 16:24:06 发布

嘉木空青

最新推荐文章于 2023-04-13 16:24:06 发布

阅读量466

点赞数

分类专栏：基础算法

基础算法专栏收录该内容

24 篇文章 1 订阅

订阅专栏

从几何的角度上来看奇异值分解：

上图表明任意的矩阵 A 是可以分解成三个矩阵相乘的形式。V表示了原始域的标准正交基，U表示经过A 变换后的co-domain的标准正交基，Σ表示了V 中的向量与U中相对应向量之间的关系。我们仔细观察上图发现，线性变换A可以分解为旋转、缩放、旋转这三种基本线性变换。

$A=U \Sigma V ^{T}$ ，Σ是对角阵，表示奇异值，A矩阵的作用是将一个向量在V这组正交基向量的空间旋转，并对每个方向进行了一定的缩放，缩放因子就是各个奇异值。然后在U这组正交基向量的空间再次旋转。可以说奇异值分解将一个矩阵原本混合在一起的三种作用效果，分解出来了。

接下来我们从分解的角度重新理解前面的表达式，我们把原来的矩阵A表达成了n个矩阵的和：

$A={{\sigma }_{1}}{{u}_{1}}v_{1}^{T}+{{\sigma }_{2}}{{u}_{2}}v_{2}^{T}+\cdots +{{\sigma }_{n}}{{u}_{n}}v_{n}^{T}=\sum\limits_{i=1}^{n}{{{\sigma }_{i}}{{u}_{i}}v_{i}^{T}}=\sum\limits_{i=1}^{n}{{{M}_{i}}}$

若假定是按降序排列的，它在某种程度上反映了对应项Mi在A中的“贡献”。“贡献”越大，说明对应的Mi在A的分解中占据的比重也越大。所以一个很自然的想法是，我们是不是可以提取出Mi中那些对A贡献最大的项，把它们的和作为对A的近似？答案是肯定的，在多元统计分析中经典的主成分分析就是这样做的。在主成分分析中，我们把数据整体的变异分解成若干个主成分之和，然后保留方差最大的若干个主成分，而舍弃那些方差较小的。事实上，主成分分析就是对数据的协方差矩阵进行了类似的分解（特征值分解），但这种分解只适用于对称的矩阵，而 SVD 则是对任意大小和形状的矩阵都成立。
奇异值包含了矩阵的“本质信息”，而具体什么是一个矩阵的“本质信息”呢？这是个很抽象的概念，在不同的应用领域自然有不同的解释，而本文将从矩阵本身的角度尽量直观地解释。本文认为奇异值分解的结果，解释了矩阵的“奇异程度”。

我们知道非满秩的矩阵就是奇异矩阵，但是有没有量化的标准衡量哪个矩阵更不满秩，或者更奇异呢？比如同样两个满秩矩阵，能否看出哪个更“满”，或者两个非满秩且同为秩r的矩阵，哪个更“奇异”呢？也许你回答不上来，但你心里隐隐约约觉得似乎是有的。让我们来看看下面这两个n=3，r=2的奇异阵：

虽说都是秩2矩阵，但A显得更奇异，因为它似乎离秩1矩阵更接近。如果A33不是7，而是6.9, 6.5, 6.1, 6.001呢？如果很接近6但不是6的话，理论上A依旧是个秩2矩阵，但也许计算机会告诉你这是一个秩1矩阵了。我们不讨论计算机的精度问题，接着看这两个矩阵。我们对其进行SVD，得到的两个奇异值矩阵：

这是符合我们的认知的，正如在PCA或者图像压缩方面的例子应用一样，Σ的“头部”集中了更多的“质量”，忽略远离“头部”的奇异值对恢复矩阵的影响越小，这意味着：一个矩阵越“奇异”，其越少的奇异值蕴含了更多的矩阵信息，矩阵的信息熵越小（这也符合我们的认知，矩阵越“奇异”，其行（或列）向量彼此越线性相关，越能彼此互相解释，矩阵所携带的信息自然也越少）。这些奇异值就是开头我们所谈论的“本质信息”，而从矩阵Σ中也能得到矩阵的“奇异程度”。

嘉木空青

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
奇异值分解

从几何的角度上来看奇异值分解：上图表明任意的矩阵 A 是可以分解成三个矩阵相乘的形式。V表示了原始域的标准正交基，U表示经过A 变换后的co-domain的标准正交基，Σ表示了V 中的向量与U中相对应向量之间的关系。我们仔细观察上图发现，线性变换A可以分解为旋转、缩放、旋转这三种基本线性变换。，Σ是对角阵，表示奇异值，A矩阵的作用...
复制链接

扫一扫