转载：奇异值分解(SVD)原理详解及推导

最新推荐文章于 2024-07-25 08:15:00 发布

irober

最新推荐文章于 2024-07-25 08:15:00 发布

阅读量519

点赞数

分类专栏：线性代数与矩阵文章标签：算法

原文链接：http://blog.csdn.net/zhongkejingwang/article/details/43053513

版权

线性代数与矩阵专栏收录该内容

11 篇文章 4 订阅

订阅专栏

转载出处http://blog.csdn.net/zhongkejingwang/article/details/43053513

网上关于矩阵和映射之间的对应关系的文章较少。A Singularly Valuable Decomposition The SVD of a Matrix，把矩阵和空间关系对应了起来。本文就参考了该文并结合矩阵的相关知识把SVD原理梳理一下。

SVD不仅是一个数学问题，在工程应用中的很多地方都有它的身影，比如PCA，掌握了SVD原理后再去看PCA那是相当简单的，在推荐系统方面，SVD更是名声大噪，将它应用于推荐系统的是Netflix大奖的获得者Koren，可以在Google上找到他写的文章；用SVD可以很容易得到任意矩阵的满秩分解，用满秩分解可以对数据做压缩。可以用SVD来证明对任意M*N的矩阵均存在如下分解：

这个可以应用在数据降维压缩上！在数据相关性特别大的情况下存储X和Y矩阵比存储A矩阵占用空间更小！

在开始讲解SVD之前，先补充一点矩阵代数的相关知识。

正交矩阵

正交矩阵是在欧几里得空间里的叫法，在酉空间里叫酉矩阵，一个正交矩阵对应的变换叫正交变换，这个变换的特点是不改变向量的尺寸和向量间的夹角，那么它到底是个什么样的变换呢？看下面这张图

假设二维空间中的一个向量OA，它在标准坐标系也即e1、e2表示的坐标是中表示为(a,b)’（用’表示转置）。现在把它用另一组坐标e1’、e2’表示为(a’,b’)’，存在矩阵U使得(a’,b’)’=U(a,b)’，则U即为正交矩阵。从图中可以看到，正交变换只是将变换向量用另一组正交基表示，在这个过程中并没有对向量做拉伸，也不改变向量的空间位置。若对两个向量同时做正交变换，那么变换前后这两个向量的夹角显然不会改变。上面的例子只是正交变换的一个方面，即旋转变换，可以把e1’、e2’坐标系看做是e1、e2坐标系经过旋转某个 $\theta$ 得到，怎么样得到该旋转矩阵U呢？如下
$\vec{x}=\begin{bmatrix} a \\ b \\ \end{bmatrix}$ $\begin{array}{l} a^{\prime}=\vec{x }\cdot \vec{e 1^{\prime}}=\vec{e1^{\prime^T}} \vec{x} \\ b^{\prime}=\vec{x} \cdot \vec{e 2^{\prime}}=\vec{e 2^{\prime^T}}\vec{ x} \end{array}$

a'和b'实际上是x在e1'和e2'轴上的投影大小，所以直接做内积可得:

$\begin{bmatrix} a^{\prime} \\ b^{\prime} \\ \end{bmatrix}=\begin{bmatrix} \vec{e1^{\prime^T}} \\ \vec{e2^{\prime^T}} \\ \end{bmatrix}\vec{x}$

从图中可以看到

$\vec{e 1^{\prime}}=\begin{bmatrix} cos\theta \\ sin\theta \\ \end{bmatrix} ,\vec{e 2^{\prime}}=\begin{bmatrix} -sin\theta \\ cos\theta \\ \end{bmatrix}$

所以

$\textbf{U}=\begin{bmatrix} cos\theta&sin\theta \\ -sin\theta&cos\theta \\ \end{bmatrix}$

正交阵U行（列）向量之间都是单位正交向量。上面求得的是一个旋转矩阵，它对向量做旋转变换！也许你会有疑问：刚才不是说向量空间位置不变吗？怎么现在又说它被旋转了？对的，这两个并没有冲突，说空间位置不变是绝对的，但是坐标是相对的，加入你站在e1上看OA，随着e1旋转到e1'，看OA的位置就会改变。如下图：

如图，如果我选择了e1'、e2'作为新的标准坐标系，那么在新坐标系中OA（原标准坐标系的表示）就变成了OA'，这样看来就好像坐标系不动，把OA往顺时针方向旋转了“斯塔”角度，这个操作实现起来很简单：将变换后的向量坐标仍然表示在当前坐标系中。

旋转变换是正交变换的一个方面，这个挺有用的，比如在开发中需要实现某种旋转效果，直接可以用旋转变换实现。正交变换的另一个方面是反射变换，也即e1'的方向与图中方向相反，这个不再讨论。

总结：正交矩阵的行（列）向量都是两两正交的单位向量，正交矩阵对应的变换为正交变换，它有两种表现：旋转和反射。正交矩阵将标准正交基映射为标准正交基（即图中从e1、e2到e1'、e2'）

特征值分解——EVD

在讨论SVD之前先讨论矩阵的特征值分解（EVD），在这里，选择一种特殊的矩阵——对称阵（酉空间中叫hermite矩阵即厄米阵）。对称阵有一个很优美的性质：它总能相似对角化，对称阵不同特征值对应的特征向量两两正交。一个矩阵能相似对角化即说明其特征子空间即为其列空间，若不能对角化则其特征子空间为列空间的子空间。现在假设存在mxm的满秩对称矩阵A，它有m个不同的特征值，设特征值为:

$\lambda_i$

对应的单位特征向量为

$\vec{x_i}$

则有

$\begin{aligned} A \vec{x_{1}} &=\lambda_{1} \vec{x_{1}} \\ A \vec{x_{2}} &=\lambda_{2} \vec{x_{2}} \\ & \ldots \\ A \vec{x_{m} }&=\lambda_{m} \vec{x_{m}} \end{aligned}$

进而

$\bm{A U=U \Lambda}$ $\bm{U=\left[\begin{array}{ccc} \pmb{x_{1}} & \pmb{x_{2}} & \cdots & \pmb{x_{m}} \end{array}\right] }$

$\bm{\Lambda=\left[\begin{array}{ccc} \lambda_{1} & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_{m} \end{array}\right] }$

所以可得到A的特征值分解（由于对称阵特征向量两两正交，所以U为正交阵，正交阵的逆矩阵等于其转置）

$\bm{A=U \Lambda U^{-1}=U \Lambda U^{T}}$

这里假设A有m个不同的特征值，实际上，只要A是对称阵其均有如上分解。

矩阵A分解了，相应的，其对应的映射也分解为三个映射。现在假设有x向量，用Ａ将其变换到Ａ的列空间中，那么首先由U'先对x做变换：

$\bm{Ax=U \Lambda U^{T}x}$

U是正交阵U'也是正交阵，所以U'对x的变换是正交变换，它将x用新的坐标系来表示，这个坐标系就是A的所有正交的特征向量构成的坐标系。比如将x用A的所有特征向量表示为：(这里把箭头形式的向量用粗体表示)

$\pmb{x}=a_{1}\pmb{ x_{1}}+a_{2}\pmb{ x_{2}}+\cdots+a_{m} \pmb{x_{m}}$

则通过第一个变换就可以把x表示为[a1 a2 ... am]'：(a1、a2等是标量)

$\bm{U \Lambda U^{T} x=U \Lambda\left[\begin{array}{c} \pmb{x_{1}^{T}} \\ \pmb{x_{2}^{T} }\\ \vdots \\ \pmb{x_{m}^{T}} \end{array}\right]}\left(a_{1}\pmb{ x_{1}}+a_{2} \pmb{x_{2}}+\cdots+a_{m} \pmb{x_{m}}\right)=\pmb{U} \pmb{\Lambda}\left[\begin{array}{c} a_{1} \\ a_{2} \\ \vdots \\ a_{m} \end{array}\right]$

紧接着，在新的坐标系表示下，由中间那个对角矩阵对新的向量坐标换，其结果就是将向量往各个轴方向拉伸或压缩：

$\bm{U \Lambda\left[\begin{array}{c} a_{1} \\ a_{2} \\ \vdots \\ a_{m} \end{array}\right]=U\left[\begin{array}{ccc} \lambda_{1} & \cdots & 0 \\ \vdots & \ddots & \vdots \\ 0 & \cdots & \lambda_{m} \end{array}\right]\left[\begin{array}{c} a_{1} \\ a_{2} \\ \vdots \\ a_{m} \end{array}\right]=U\left[\begin{array}{c} \lambda_{1} a_{1} \\ \lambda_{2} a_{2} \\ \vdots \\ \lambda_{m} a_{m} \end{array}\right]}$