奇异值分解与主成分分析

Lxx_bbbbbb

已于 2023-03-14 15:23:18 修改

阅读量234

点赞数

文章标签：算法线性代数矩阵机器学习

于 2023-03-13 20:12:41 首次发布

本文链接：https://blog.csdn.net/john_bee/article/details/129486229

版权

奇异值分解

对于一个 $n$ 阶方阵 $A$ ，如果它有 $n$ 个线性无关的特征向量，我们可以将其分解为 $\Sigma P^{-1}$ 的形式。但对于一个一般的 $\times n$ 矩阵，需要用SVD进行分解¹。

1）奇异值分解基本定理

若 $A$ 为 $\times n$ 矩阵， $A∈R^{m \times n}$ ，则 $A$ 的奇异值分解存在
$\Sigma V^{T}$
其中 $U$ 是 $m$ 阶正交矩阵， $V$ 是 $n$ 阶正交矩阵， $\Sigma$ 是 $\times n$ 阶矩形对角阵，其对角线元素非负，且按降序排列。

2）奇异值分解的计算

求对称矩阵 $W=A^TA$ 的特征值 $λ_i$ （ $i = 1, 2, ..., n$ ）和特征向量 $v_i$ （ $i = 1, 2, ..., n$ ）
求 $n$ 阶正交矩阵 $V$ ：将特征向量单位化，构成 $V$
$V=[v_1 \quad v_2 \quad... \quad v_n]$
求 $\times n$ 阶矩形对角阵 $\Sigma$
$σ_i=\sqrt{λ_i},i=1,2,...,n$ $\Sigma = diag(σ_1,σ_2,...,σ_n)$
求 $m$ 阶正交矩阵 $U$
对 $A$ 的前 $r$ 个奇异值（ $r$ 为 $A$ 的秩），令 $u_j=\frac{1}{\sigma_j}Av_j$ $U_1=[u_1 \quad u_2 \quad... \quad u_r]$
求 $A^T$ 的零空间一组标准正交基 ${\left \{ u_1 \quad u_2 \quad ... \quad u_m \right \} }$ ，并令 $U=[U_1 \quad U_2]$
得到奇异值分解 $\Sigma V^{T}$

3）紧奇异值分解和截断奇异值分解

1）定理中给出的奇异值分解 $\Sigma V^{T}$ 称为完全奇异值分解，而实际中常用的是奇异值分解的紧凑形式和截断形式。

紧奇异值分解
$A=U_r \Sigma_r V_r^{T}$
其中 $r$ 为 $A$ 的秩， $U_r$ 为 $m\times r$ 矩阵， $V_r$ 为 $n\times r$ 矩阵， $\Sigma_r$ 为 $r\times r$ 阶对角阵。
$U_r$ 为 $U$ 的前 $r$ 列， $V_r$ 为 $V$ 的前 $r$ 列， $\Sigma_r$ 为 $\Sigma$ 的前 $r$ 个对角线元素。
截断奇异值分解
$A\approx U_k \Sigma_k V_k^{T}$
其中 $U_k$ 为 $m\times k$ 矩阵， $V_k$ 为 $n\times k$ 矩阵， $\Sigma_k$ 为 $k\times k$ 阶对角阵。
$U_k$ 为 $U$ 的前 $k$ 列， $V_k$ 为 $V$ 的前 $k$ 列， $\Sigma_k$ 为 $\Sigma$ 的前 $k$ 个对角线元素。

在实际应用中，常常需要对矩阵数据进行压缩、降维，紧奇异值对应无损压缩，截断奇异值对应有损压缩。关于SVD的直观意义，可以看看这个视频。

主成分分析

PCA(Principal Component Analysis)，即主成分分析方法，也称为主分量分析，是一种使用最广泛的数据降维算法。PCA通过线性变换将原始数据（n维特征）变换为一组各维度（k维特征）线性无关的数据，其中k维特征是全新的正交特征也被称为主成分²。关于详细的原理证明和推导这个视频讲的非常不错。

我们先记录PCA的算法步骤，再说明为什么PCA能够实现数据的降维。

1）PCA算法步骤（特征分解版）

设有 $m$ 条 $n$ 维数据，将其拼成 $m\times n$ 阶矩阵 $X$

将 $X$ 的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
求出协方差矩阵 $C=\frac{1}{n}XX^T$
求协方差矩阵的特征值和对应的特征向量
将特征向量按对应特征值大小从上到下按行排列成矩阵，取前 $k$ 行组成矩阵 $P$
$Y = PX$ 即为降维到 $k$ 维后的数据

这里计算的核心问题落在了协方差矩阵 $C=\frac{1}{n}XX^T$ 的特征分解（求 $P$ 矩阵）上。

2）用SVD求解 $P$ 矩阵

前面提到，在 $\Sigma V^{T}$ 中，有 $A^{T} A=\left(U \Sigma V^{T}\right)^{T} U \Sigma V^{T}=V \Sigma^{T} U^{T} U \Sigma V^{T}=V \Sigma^{T} \Sigma V^{T}=V \Sigma^{2} V^{T}$ 而 $V$ 是 $A^TA$ 特征值分解的特征向量按列组成的正交矩阵。
因此，若取 $A=\frac{X^{T}}{\sqrt{n}}$ ，则有
$A^{T} A=\left(\frac{X^{T}}{\sqrt{m}}\right)^{T} \frac{X^{T}}{\sqrt{m}}=\frac{1}{m} X X^{T}$
因此，SVD中的 $V$ 即为所求的 $P$ 。

那么，用SVD求解有什么好处呢？

一般 $X$ 的维度很高， $A^TA$ 的计算量很大
方阵的特征值分解计算效率不高
SVD除了特征值分解这种求解方式外，还有更高效且更准确的迭代求解法（如Lanczos算法和lobpcg算法等³），避免了 $A^TA$ 特征值、特征向量的计算

3）PCA的数学原理

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维¹ ⁴。

首先，降维就意味着信息的丢失，不过鉴于实际数据本身常常存在的相关性，我们可以想办法在降维的同时将信息的损失尽量降低。直观的图形解释可以看看这个视频中的展示。

对于一个 $N$ 维的向量，直接舍弃其中的若干维度显然是不可行的。PCA的思想是，对坐标系进行旋转变换，使得数据投影到坐标轴上的方差最大，这样能使得投影后的投影值尽可能分散。同时，我们在选择坐标轴时，希望坐标轴之间相互“垂直”（即相互正交），这样能保证不同维度上尽可能的不包含相关的信息。

至此，我们得到了降维问题的优化目标：将一组 $N$ 维向量降为 $K$ 维（ $K$ 大于0，小于 $N$ ），其目标是选择 $K$ 个单位（模为1）正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，而字段的方差则尽可能大（在正交的约束下，取最大的 $K$ 个方差）。

每个样本可以理解为一个p维的随机向量。同时，每个维度可以理解为一个随机变量。样本的协方差矩阵说的是，p个随机变量之间的协方差，所构成的矩阵。因此，上述优化，等价于将协方差矩阵对角化。

协方差矩阵的定义为 $M=\left[\begin{array}{ccc} cov\left(x_{1}, x_{1}\right) & \cdots & cov\left(x_{1}, x_{d}\right) \\ \vdots & \ddots & \vdots \\ cov\left(x_{d}, x_{1}\right) & \cdots & cov\left(x_{m}, x_{m}\right) \end{array}\right] \in \mathbb{R}^{m \times m}$

另一方面，协方差矩阵 $M=\frac{1}{m}XX^T$ ⁵。这就是PCA算法上来就对样本协方差矩阵进行特征分解的原因。

4）主成分方差贡献率

PCA的主要目的是降维，所以一般选择 $k (k << n)$ 个主成分来代替原来 $n$ 个变量。选择 $k$ 的方法，通常用主成分的方差贡献率。

第 $k$ 个主成分 $y_k$ 的方差贡献率为 $\eta_k = \frac { \lambda_k}{\sum_{i=1}^{n} \lambda_i}$
前 $k$ 个主成分 $y_1,y_2,...,y_k$ 的累计方差贡献率为 $\sum_{i=1}^{k}\eta_k = \frac { \sum_{i=1}^{k}\lambda_i}{\sum_{i=1}^{n} \lambda_i}$

通常取 $k$ 使得累计方差贡献率达到规定百分比以上。累计方差贡献率反映了主成分保留信息的比例。

5）因子负荷量

第 $k$ 个主成分 $y_k$ 与变量 $x_i$ 的相关系数 $\rho(y_k,x_i)$ 称为因子负荷量，它表示第 $k$ 个主成分 $y_k$ 与变量 $x_i$ 的相关关系
$\rho(y_k,x_i)=\frac{\sqrt{\lambda_k }\alpha_{ik}}{\sqrt{\sigma_{ii}}}$
自然地，前 $k$ 个主成分 $y_1,y_2,...,y_k$ 对原有变量 $x_i$ 的贡献率 $v_i$ 定义为 $x_i$ 与 $y_1,y_2,...,y_k)$ 的相关系数的平方
$v_i=\rho^2(x_i,(y_1,y_2,...,y_k))$ $v_i=\sum_{j=1}^{k}\rho^2(x_i,y_j)= \sum_{j=1}^{k}\frac{\lambda_j\alpha_{ij}^2}{\sigma_{ii}}$