svd奇异值分解_强大的矩阵奇异值分解(SVD)

最新推荐文章于 2024-08-13 19:12:47 发布

weixin_39635314

最新推荐文章于 2024-08-13 19:12:47 发布

阅读量1.3k

点赞数 2

文章标签： svd奇异值分解本质矩阵svd分解

以下所有内容转载于https://mp.weixin.qq.com/s/Dv51K8JETakIKe5dPBAPVg

特征值分解和奇异值分解在机器学习中都是很常见的矩阵分解算法。两者有着很紧密的关系，特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。

1）特征值、特征向量

如果一个向量v是矩阵A的特征向量，将一定可以表示成下面的形式：

其中，λ是特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。

为什么一个向量和一个数相乘的效果与一个矩阵和一个向量相乘的效果是一样的呢？

答案：矩阵A与向量v相乘，本质上是对向量v进行了一次线性变换（旋转或拉伸），而该变换的效果为常数λ乘以向量v。当我们求特征值与特征向量的时候，就是为了求矩阵A能使哪些向量（特征向量）只发生伸缩变换，而变换的程度可以用特征值λ表示。

2）特征值与特征向量的几何意义

一个矩阵其实就是一个线性变换，因为一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换。比如说下面的这个矩阵：

它其实对应的线性变换是图2的形式：

图2：矩阵M的线性变换

因为这个矩阵M乘以一个向量（x，y）的结果是：

上面的矩阵是对称的，所以这个变换是一个对x、y轴的方向一个拉伸变换（每一个对角线上的元素将会对一个维度进行拉伸变换，当值大于1时是拉伸，当值小于1时是缩短），如图2所示。当矩阵不是对称的时候，假如说矩阵是下面的样子：

它所描述的变换是下面的样子：

图3：M是非对称矩阵变换

这其实是在平面上对一个轴进行的拉伸变换，如图3蓝色的箭头所示，蓝色的箭头是一个最主要的变换方向（变换的方向可能不止一个）。如果想要描述好一个变换，那我们就需要描述好这个变换主要的变化方向。

3）特征值分解

对于矩阵A，有一组特征向量v，将这组向量进行正交化单位化，就能得到一组正交单位向量。特征值分解，就是将矩阵A分解为如下式：

其中，Q是矩阵A的特征向量组成的矩阵，

则是一个对角阵

，对角线上的元素就是特征值。我们来分析一下特征值分解的式子，分解得到的

矩阵是一个对角矩阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变换方向（从主要的变化到次要的变化排列）。

当矩阵是高维的情况下，那么这个矩阵就是高维空间下的一个线性变换，这个线性变换可能没法通过图片来表示，但是可以想象，这个变换也同样有很多的变化方向，我们通过特征值分解得到的前N个特征向量，就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向，就可以近似这个矩阵变换。也就是之前说的：提取这个矩阵最重要的特征。

总结：特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多么重要，而特征向量表示这个特征是什么，可以将每一个特征向量理解为一个线性的子空间，我们可以利用这些线性的子空间干很多事情。不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵。

4)特征值分解的例子

这里我们用一个简单的方阵来说明特征值分解的步骤。我们的方阵A定义为：

首先，由方阵A的特征方程，求出特征值。

特征值为

（重数是2）。

然后，把每个特征值λ带入线性方程组

，求出特征向量。

当λ=2时，解线性方程组

。

解得

，

。特征向量为：

。

当λ=1时，解线性方程组

。

，

。特征向量为：

。

最后，方阵A的特征值分解为：

2 .SVD分解

我们前面讲了很多特征值、特征向量和特征值分解，而且基于我们以前学习的线性代数知识，利用特征值分解提取特征矩阵是一个容易理解且便于实现的方法。但是为什么还存在奇异值分解呢？特征值分解最大的问题是只能针对方阵，即n*n的矩阵。而在实际的应用中，我们分解的大部分都不是方阵。关系型数据库中的某一张表的数据存储结构就类似于一个二维矩阵，假设这个表有m行，有n个字段，那么这个表数据矩阵规模就是m*n。很明显，在绝大部分情况下，m与n是不相等的。如果这个时候要对这个矩阵进行特征提取，特征值分解的方法明显就不行了。此时，就可以用SVD对非方阵矩阵进行分解。

奇异值分解是一个能适用于任意矩阵的一种分解的方法，对于任意矩阵A总是存在一个奇异值分解：