SVD奇异值分解

最新推荐文章于 2023-11-18 16:05:44 发布

hongbin_xu

最新推荐文章于 2023-11-18 16:05:44 发布

阅读量883

点赞数

分类专栏：机器学习文章标签： SVD

本文链接：https://blog.csdn.net/hongbin_xu/article/details/80492520

版权

机器学习专栏收录该内容

30 篇文章 14 订阅

订阅专栏

前言

之前的博客：特征值和特征向量，讨论了矩阵的特征分解相关的概念。公式如下所示：

A = W Σ W T (1)

$A = W \Sigma W^T \tag{1}$

但是特征分解有一个限制条件，即 $A$ 必须是方阵，如果不是方阵则上式就不能使用了。为了在 $A$ 矩阵不是方阵时，即行列数不等时，也能分解矩阵的特征，就要用到SVD了。

定义

SVD的作用也是对矩阵进行分解，但是与特征分解不同，SVD 不要求待分解的矩阵必须是方阵。

假设给定了某一个矩阵 $A$ ，其维度是 $m \times n$ 。那么，定义SVD为如下式：

A = U Σ V T (2)

$A = U \Sigma V^T \tag{2}$

其中， $U$ 是一个 $m \times m$ 的矩阵， $\Sigma$ 是一个 $m \times n$ 的矩阵， $V$ 是一个 $n \times n$ 的矩阵。 $\Sigma$ 中，除了对角线上的元素之外，其余元素的值都为0，主对角线上的每个元素都被称为奇异值。另外， $U$ 和 $V$ 都是经过标准化之后的，即满足： $U^TU=I$ 、 $V^TV=I$ 。

求解SVD过程

求解SVD的过程可以分解为，分别求解 $U,\Sigma, V$ 的过程。

将 $A$ 的转置与 $A$ 作矩阵乘法，那么会得到 $n \times n$ 的方阵 $A^T A$ 。这样就可以对 $A^T A$ 作特征分解了，求得的特征值与特征向量满足下式：

(A T A) v j = λ j v j (3)

$(A^T A) v_j = \lambda_j v_j \tag{3}$

得到了 $A^T A$ 的 $n$ 个特征值 $\lambda_j$ 以及对应的 $n$ 个特征向量 $v_j$ 。将这 $n$ 个特征向量 $v_j$ 组合成一个 $n \times n$ 的矩阵 $V$ ，就得到了SVD公式里面的矩阵 $V$ 了。通常，称 $V$ 中的特征向量 $v_j$ 为右奇异向量。

将 $A$ 与 $A$ 的转置作矩阵乘法，则会得到 $m \times m$ 的方阵 $A A^T$ 。接着可以对 $A A^T$ 作特征分解，求出特征值与特征向量满足下式：

(A A T) u i = λ u i (4)

$(A A^T) u_i = \lambda u_i \tag{4}$

得到了 $A A^T$ 的 $n$ 个特征值 $\lambda_i$ 以及对应的 $n$ 个特征向量 $u_i$ 。将这 $n$ 个特征向量 $u_i$ 组合成一个 $m \times m$ 的矩阵 $U$ ，就得到了SVD公式里面的矩阵 $U$ 了。通常，称 $U$ 中的特征向量 $u_i$ 为左奇异向量。

已经求到了 $U$ 和 $V$ 了，还剩下 $\Sigma$ 。注意到， $\Sigma$ 除了对角线上是奇异值之外，其余位置都是0，那么只需要求出每个奇异值 $\sigma_{i}$ 就k了。

注意到：

A = U Σ V T \Rightarrow A V = U Σ V T V \Rightarrow A V = U Σ \Rightarrow A v k = σ k u k \Rightarrow σ k = A v k u k (5)

$A = U \Sigma V^T \Rightarrow A V = U \Sigma V^T V \Rightarrow A V = U \Sigma \Rightarrow A v_k = \sigma_{k} u_k \Rightarrow \sigma_{k} = \frac{A v_k}{u_k} \tag{5}$

套用上式，即可求出每个奇异值 $\sigma_{k}$ ，得到奇异值矩阵 $\Sigma$ 。

再简要证明一下，方阵A A^T的特征向量组成的矩阵就是SVD中的 $U$ 矩阵，而方阵A A^T的特征向量组成的矩阵就是SVD中的 $V$ 矩阵。

{A = U Σ V T A T = V Σ T U T \Rightarrow {A T A = V Σ T U T U Σ V T = V Σ T Σ V T A A T = U Σ V T V Σ T U T = U Σ Σ T U T (6)

$\begin{cases} A = U \Sigma V^T \\ A^T = V \Sigma^T U^T \end{cases} \Rightarrow \begin{cases} A^T A = V \Sigma^T U^T U \Sigma V^T = V \Sigma^T \Sigma V^T \\ A A^T = U \Sigma V^T V \Sigma^T U^T = U \Sigma \Sigma^T U^T \end{cases} \tag{6}$

推导时用到了 $U^T U = I$ 、 $V^T V = I$ 。注意到 $\Sigma^T \Sigma$ 的维数为 $n \times n$ ， $\Sigma \Sigma^T$ 的维数为 $m \times m$ ，由于奇异值矩阵 $\Sigma$ 只有对角线上有元素，其余位置都是0，所以很容易证明 $\Sigma^T \Sigma$ 和 $\Sigma \Sigma^T$ 也是奇异值矩阵。不难看出 $A A^T$ 和 $A^T A$ 的特征向量组成的矩阵分别是SVD中 $U$ 和 $V$ 矩阵了吧！

不难看出 $\Sigma^T \Sigma$ 和 $\Sigma \Sigma^T$ 的特征值矩阵等于奇异值矩阵 $\Sigma$ 的平方。即有下式关系：

σ k = λ k - - \sqrt (7)

$\sigma_{k} = \sqrt{\lambda_k} \tag{7}$

我们可以通过求解 $\sigma_{ij} = \frac{A v_j}{u_i}$ 来计算奇异值，也可以通过求出 $A A^T$ 或的 $A^T A$ 特征值开平方根得到奇异值。

计算举例

对矩阵 $A$ 作奇异值分解：

A = [\begin{matrix} 1 & 0 \\ 1 & 1 \\ 0 & 1 \end{matrix}]

$A = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 0 & 1 \end{bmatrix}$

求出 $A^T$ ：

A T = [101101]

$A^T = \begin{bmatrix} 1 & 1 & 0 \\ 0 & 1 & 1 \end{bmatrix}$

接着可以求出 $A A^T$ 和 $A^T A$ ：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ A A T = ⎡ ⎣ ⎢ 110121011 ⎤ ⎦ ⎥ A T A = [2112]

$\begin{cases} A A^T = \begin{bmatrix} 1 & 1 & 0 \\ 1 & 2 & 1 \\ 0 & 1 & 1 \end{bmatrix} \\ A^T A = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix} \end{cases}$

先求出 $A A^T$ 的特征值和特征向量：（注，将 $\lambda$ 按照从大到小的顺序标号）

手算是套用公式 $Det(A A^T-\lambda I) = 0$ 求出特征值与特征矩阵，这里直接用matlab的eig函数求出结果了。

png

$\lambda_1 = 3$ ； $u_1 = \begin{bmatrix} 0.4082 \\ 0.8165 \\ 0.4082 \end{bmatrix}$ ； $\lambda_2 = 1$ ； $u_2 = \begin{bmatrix} -0.7071 \\ 0 \\ 0.7071\end{bmatrix}$ ； $\lambda_3=0$ ； $u_3 = \begin{bmatrix} 0.5774 \\ -0.5774 \\ 0.5774 \end{bmatrix}$ ；

再求出 $A^T A$ 的特征值和特征向量：（求解方法同上，省略）

$\lambda_1 = 3$ ； $v_1= \begin{bmatrix} 0.7071 \\ 0.7071 \end{bmatrix}$ ； $\lambda_2 = 1$ ； $v_2 = \begin{bmatrix} -0.7071 \\ 0.7071 \end{bmatrix}$ ；

套用公式 $\sigma_{k} = \frac{A v_k}{u_k}, k=1,2$ 求解奇异值：

σ 1 ⎡ ⎣ ⎢ 0.4082 0.8165 0.4082 ⎤ ⎦ ⎥ = ⎡ ⎣ ⎢ 110011 ⎤ ⎦ ⎥ [0.7071 0.7071] \Rightarrow σ 1 = 1.732

$\sigma_1 \begin{bmatrix} 0.4082 \\ 0.8165 \\ 0.4082 \end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} 0.7071 \\ 0.7071 \end{bmatrix} \Rightarrow \sigma_1 =1.732$

σ 2 = ⎡ ⎣ ⎢ - 0.7071 0 0.7071 ⎤ ⎦ ⎥ = ⎡ ⎣ ⎢ 110011 ⎤ ⎦ ⎥ [- 0.7071 0.7071] \Rightarrow σ 2 = 1

$\sigma_2 = \begin{bmatrix} -0.7071 \\ 0 \\ 0.7071\end{bmatrix} = \begin{bmatrix} 1 & 0 \\ 1 & 1 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} -0.7071 \\ 0.7071 \end{bmatrix} \Rightarrow \sigma_2 = 1$

当然也可以直接使用 $\sigma_{k} = \sqrt{\lambda_k}$ 求出奇异值， $A A^T$ 和 $A^T A$ 的特征值都为 $3$ 和 $1$ （ $0$ 没有意义，所以不讨论），所以奇异值分别为 $\sqrt{3}$ 和 $1$ ，这样计算更简单。

最终得到的奇异值分解为：

A = U Σ V^{T} = [\begin{matrix} 0.4082 & - 0.7071 & 0.5774 \\ 0.8165 & 0 & - 0.5774 \\ 0.4082 & 0.7071 & 0.5774 \end{matrix}] [\begin{matrix} 1.732 & 0 \\ 0 & 1 \\ 0 & 0 \end{matrix}] [\begin{matrix} 0.7071 & - 0.7071 \\ 0.7071 & 0.7071 \end{matrix}]

$A = U \Sigma V^T = \begin{bmatrix} 0.4082 & -0.7071 & 0.5774 \\ 0.8165 & 0 & -0.5774 \\ 0.4082 & 0.7071 & 0.5774 \end{bmatrix} \begin{bmatrix} 1.732& 0 \\ 0 & 1 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} 0.7071 & -0.7071 \\ 0.7071 & 0.7071 \end{bmatrix}$

SVD的性质

对于奇异值，它与特征分解中的特征值类似。在奇异值矩阵 $\Sigma$ 中，奇异值是按照从大到小排列，而奇异值减小的也十分快，通常前面的10%的奇异值就占掉了所有奇异值之和的90%以上。因此，我们可以使用最大的 $k$ 个奇异值和对应的左右奇异向量来近似表示矩阵，如下式所示：

\begin{matrix} (8) & A_{(m \times n)} = U_{(m \times m)} Σ_{(m \times n)} V_{(n \times n)}^{T} ≃ U_{(m \times k)} Σ_{(k \times k)} V_{(k \times n)}^{T} \end{matrix}

$A_{(m \times n)} = U_{(m \times m)} \Sigma_{(m \times n)} V^T_{(n \times n)} \simeq U_{(m \times k)} \Sigma_{(k \times k)} V^T_{(k \times n)} \tag{8}$

上式中的下标表示那个矩阵的维数。

如果 $k$ 是一个较小的数，而 $n$ 是一个较大的数，SVD的作用就体现出来了，因为一个较大的矩阵 $A$ 可以用三个较小的矩阵 $U_{(m \times k)}, \Sigma_{(k \times k)}, V^T_{(k \times n)}$ 来表示。

由于这个特殊的性质，SVD可以用于PCA降维等，来压缩数据和去噪。

参考资料：

1、https://www.cnblogs.com/pinard/p/6251584.html

hongbin_xu

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SVD奇异值分解

前言之前的博客：特征值和特征向量，讨论了矩阵的特征分解相关的概念。公式如下所示：A=WΣWT(1)(1)A=WΣWTA = W \Sigma W^T \tag{1}但是特征分解有一个限制条件，即AAA必须是方阵，如果不是方阵则上式就不能使用了。为了在AAA矩阵不是方阵时，即行列数不等时，也能分解矩阵的特征，就要用到SVD了。定义SVD的作用也是对矩阵进行分解，但是与特征...
复制链接

扫一扫