矩阵的奇异值分解(SVD)及PCA应用

最新推荐文章于 2023-09-09 20:09:44 发布

song430

最新推荐文章于 2023-09-09 20:09:44 发布

阅读量1k

点赞数 2

分类专栏：机器学习算法文章标签：奇异值分解 SVD 降维

本文链接：https://blog.csdn.net/song430/article/details/90758977

版权

机器学习算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本篇文章参考了李航老师的《统计学习方法》第二版。，同时参考了机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
矩阵的奇异值分解是将一个矩阵分解成多个小矩阵的乘积，在PCA（principal component analysis，主成分分析）和LSA（latent semantic analysis，潜在语义分析）中都有应用，在此把矩阵的分解过程记录下来，证明过程先略过。

矩阵的SVD分解

首先看一下定义，给定非0的m $\times$ n实矩阵A，它可以表示成以下三个实矩阵乘积形式的运算。
$A = UDV^T$

其中 $U$ 是 $m$ 阶正交矩阵， $V$ 是 $n$ 阶正交矩阵。 $D$ 是由降序排列的非负的对角线元素组成的 $m\times n$ 对角矩阵。满足如下关系
$UU^T=I$

$VV^T=I$

$diag(\sigma_1, \sigma_2,...,\sigma_p)$

$\sigma_1 \geq \sigma_2 \geq...\geq \sigma_p \geq0$

$p = m i n (m, n)$

计算过程

（1）首先求出 $AA^T$ 的特征值和特征向量
计算对称矩阵 $W=A^TA$ 。
求解特征方程 $(W-\lambda I)x = 0$ ，得到特征值 $\lambda_i$ 并将特征值由大到小排列得到
$\lambda_1 \geq \lambda_2 \geq ... \geq \lambda_n \geq 0$

将特征值代入特征方程求得对应的特征向量。
（2）求 $n$ 阶正交矩阵 $V$
将特征向量单位化，得到单位特征向量 $v_1, v_2,...,v_n$ ，构成 $n$ 阶正交矩阵 $V$
$V = [v_1 \ v_2 \ ... \ v_n]$
（3）求 $m\times n$ 对角矩阵 $D$
计算 $A$ 的奇异值
$\sigma_i = \sqrt{\lambda_i}, i=1,2,...,n$
构造 $\times n$ 矩形对角矩阵 $D$ ，主对角线元素是奇异值，其余元素是0。
$diag(\sigma_1, \sigma_2, ..., \sigma_n)$
（4）求 $m$ 阶正交矩阵 $U$
对 $A$ 的前 $r$ 个正奇异值，令
$u_j = \frac{1}{\sigma_j}Av_j$

得到

$U_1 = [u_1 \ u_2 \ ... \ u_r]$

求 $A^T$ 的零空间的一组标准正交基 ${u_{r+1}, u_{r+2}, ... ,u_m\}$ ，令

$U_2 = [u_{r+1} \ u_{r+2} \ ... \ u_m]$

并令 $U = [U_1 \ U_2]$
（5）得到 $A$ 的奇异值分解

$A = UDV^T$

举例计算

上面的基本步骤，下面来看一个具体的例子。
求矩阵 $A$ 的奇异值分解。
$A=\begin{bmatrix} 1 &1\\ 2 &2\\ 0 &0 \end{bmatrix}$
（1）求矩阵 $A^TA$ 的特征值和特征向量

$A^TA=\begin{bmatrix} 1 & 2 & 0\\ 1 & 2 & 0\\ \end{bmatrix} \begin{bmatrix} 1 &1\\ 2 &2\\ 0 &0 \end{bmatrix} = \begin{bmatrix} 5 & 5\\ 5 & 5\\ \end{bmatrix}$

特征值 $\lambda$ 和特征向量 $x$ 满足特征方程

$(A^TA-\lambda I)x = 0$

得到齐次线性方程组

$\left \{\begin{array}{lr} (5-\lambda)x_1+5x_2 = 0 \\ 5x_1+(5-\lambda)x_2 = 0 \end{array} \right.$

该方程组有非零解的充要条件是
$\left| \begin{array}{cccc} 5-\lambda & 5 \\ 5 & 5-\lambda \end{array} \right| = 0$

即 $\lambda^2-10\lambda=0$ ，解此方程，会得到矩阵 $A^TA$ 的特征值 $\lambda_1=10$ 和 $\lambda_2=0$ 。
将特征值 $\lambda_1=10$ 代入线性方程组，得到对应的单位特征向量

$v_1 = \begin{bmatrix} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{bmatrix}$

同样得到特征值 $\lambda_2=0$ 对应的单位特征向量

$v_2 = \begin{bmatrix} \frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} \end{bmatrix}$

（2）求正交矩阵 $V$

$[v_1 \ v_2] = \begin{bmatrix} \frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} \\ \frac{1}{\sqrt 2} & -\frac{1}{\sqrt 2}\end{bmatrix}$

（3）求对角矩阵
奇异值为 $\sigma_1 = \sqrt{\lambda_1} = \sqrt{10}$ 和 $\sigma_2=0$ ，构造对角矩阵

$\begin{bmatrix} \sqrt{10} & 0 \\ 0 & 0 \\ 0 & 0 \\ \end{bmatrix}$
注意要到 $D$ 中加上行向量0，使得三个矩阵可以进行相乘。
（4）求正交矩阵 $U$
基于 $A$ 的正奇异值 $\sigma_1$ 计算得到列向量 $u_1$
$u_1 = \frac{1}{\sigma_1}Av_1 = \frac{1}{\sqrt{10}} \begin{bmatrix} 1 & 1\\ 2 & 2\\ 0 & 0 \\ \end{bmatrix} \begin{bmatrix} \frac{1}{\sqrt2} \\ \frac{1}{\sqrt2}\end{bmatrix} = \begin{bmatrix} \frac{1}{\sqrt5} \\ \frac{2}{\sqrt{5}} \\ 0\end{bmatrix}$

列向量 $u_2, u_3$ 是 $A^T$ 的零空间的一组标准正交基。为此，求解以下线性方程组

$A^Tx = \begin{bmatrix} 1 & 2 & 0 \\ 1 & 2 & 0\\ \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$

即 $x_1+2x_2+0x_3=0$ ，分别取 $x_2, x_3)$ 为（1,0）和（0,1），得到一组正交基 $2, 1, 0)^T, (0,0,1)^T$ 。化成标准正交基之后
$u_2 = (-\frac{2}{\sqrt5},\frac{1}{\sqrt5}, 0), u_3 = (0,0, 1)^T$

构造正交矩阵 $U$

$\begin{bmatrix} \frac{1}{\sqrt5} & -\frac{2}{\sqrt5} & 0 \\ \frac{2}{\sqrt5} & \frac{1}{\sqrt5} & 0 \\ 0 & 0 & 1 \end{bmatrix}$
（5）矩阵 $A$ 的奇异值分解
$UDV^T = \begin{bmatrix} \frac{1}{\sqrt5} & -\frac{2}{\sqrt5} & 0 \\ \frac{2}{\sqrt5} & \frac{1}{\sqrt5} & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} \sqrt{10} & 0 \\ 0 & 0 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} \frac{1}{\sqrt2} & \frac{1}{\sqrt2} \\ \frac{1}{\sqrt2} & - \frac{1}{\sqrt2}\end{bmatrix}$
再来看一段简单的程序，是不是和得到的结果一致。

import numpy as np
A = [[1,1],[2,2],[0,0]]
u,d,v = np.linalg.svd(A)

在这里插入图片描述
结果可以看作是一致的，因为奇异值分解的值并不唯一。

SVD的意义

根据机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用这篇文章的观点，在很多情况下，前10%甚至前1%的奇异值的和就占了全部奇异值之和的99%以上，也就是说，我们可以用前r大的奇异值来近似描述矩阵，采用截断奇异值分解的话，三个小矩阵的维度可以大大的降低。来看个例子。
$\begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 4 \\ 0 & 3 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 2 & 0 & 0 & 0 \\ \end{bmatrix}$
矩阵的秩为3，奇异值应该有3个，如果我们只取前两个奇异值，计算可以得到前两个奇异值为 $\sigma_1=4, \sigma_2 =3$ ，为了和奇异值相匹配， $U$ 和 $V$ 也需要做截断，并且计算出其左奇异向量 $U$ 和右奇异向量 $V$
$\begin{bmatrix} 0 & 0 \\ 1 & 0 \\ 0 & 1 \\ 0 & 0 \\ 0 & 0 \end{bmatrix},D = \begin{bmatrix} 4 & 0 \\ 0 & 3 \end{bmatrix},V = \begin{bmatrix} 0 & 0 \\ 0 & 1 \\ 0 & 0 \\ 1 & 0 \end{bmatrix}$
利用截断的奇异值和奇异向量计算出 $A$ 的近似值
$\widetilde{A} = UDV^T = \begin{bmatrix}0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 4 \\ 0 & 3 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ \end{bmatrix}$
这可以看成是对原矩阵的近似，不过是在弗罗贝尼乌斯范数（Frobenius）下的近似，即
$||A||_F = (\sum_{i=1}^m\sum_{j=1}^n(a_{ij}^2))^{\frac{1}{2}} \approx ||\widetilde A||_F$

在PCA中的应用

PCA的主要思想是将高维度空间的特征转化成低维度的新特征，在减轻后续算法计算量的同时仍能使算法保持较高的精度，主要用于数据的预处理过程。在此省略掉其计算过程，看一个比较直观的例子，只描述和奇异值分解相关的，本示例来自于李航老师的《统计学习方法》第二版。
例：假设有n个同学参加四门课程的考试，将学生们的考试成绩看作随机变量的取值，对考试成绩进行标准化处理，得到样本的相关矩阵 $R$ ，如下表。

课程	语文	外语	数学	物理
语文	1	0.44	0.29	0.33
外语	0.44	1	0.35	0.32
数学	0.29	0.35	1	0.60
物理	0.33	0.32	0.60	1

设变量 $x_1,x_2,x_3,x_4$ 分别表示语文、外语、数学、物理的成绩。对样本相关矩阵进行特征值分解，得到相关矩阵的特征值，并按大小排序，
$\lambda_1 = 2.17, \lambda_2 = 0.87, \lambda_3=0.57, \lambda_4= 0.39$

这些特征值就是各主成分的方差贡献率，假设要求主成分的累计方差贡献率大于75%，那么只需取前两个主成分即可，即k=2，求出对应于特征值 $\lambda_1,\lambda_2$ 的单位特征向量，列于下表。

项目	$x_1$	$x_2$	$x_3$	$x_4$	方差贡献率
$y_1$	0.460	0.476	0.523	0.537	0.543
$y_2$	0.574	0.486	-0.476	-0.456	0.218

按照上表可以得到第一、第二主成分：
$y_1 = 0.460x_1+0.476x_2+0.523x_3+0.537x_4$

$y_2 = 0.574x_1+0.486x_2-0.476x_3-0.456x_4$

第一主成分的实际意义在于各门成绩提高都可以使 $y_1$ 成绩提高，也就是第一主成分反映了学生的整体成绩，第二主成分表明文科成绩提高可以使 $y_2$ 提高，理科成绩提高可以使 $y_2$ 降低，第二主成分反映了学生的文科成绩和理科成绩的关系。这就可以将4维的特征降为2维。

song430

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
矩阵的奇异值分解(SVD)及PCA应用

本篇文章参考了李航老师的《统计学习方法》第二版。矩阵的奇异值分解是将一个矩阵分解成多个小矩阵的乘积，在PCA（principal component analysis，主成分分析）和LSA（latent semantic analysis，潜在语义分析）中都有应用，在此把矩阵的分解过程记录下来，证明过程先略过。矩阵的SVD分解首先看一下定义，给定非0的m×\times×n实矩阵A，它可以表示...
复制链接

扫一扫