机器学习算法之主成分分析(Principle Component Analysis, PCA)

最新推荐文章于 2023-07-20 23:29:27 发布

Black Magician

最新推荐文章于 2023-07-20 23:29:27 发布

阅读量417

点赞数

分类专栏：机器学习文章标签：机器学习 PCA 主成分分析

本文链接：https://blog.csdn.net/sinat_29244519/article/details/101573443

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

基变换的矩阵表示

众所周知，在平面直角坐标系上，一个数据点或者说一个向量的坐标实际就是这个向量与两个坐标轴的单位向量做点积的结果，比如有一个向量 $\bm x$ 和两个坐标轴基向量 $\bm i$ 和 $\bm j$ :
$\bm{x}=\begin{pmatrix} 1\\ 2 \end{pmatrix}, \bm{i}=\begin{pmatrix} 1\\ 0 \end{pmatrix}, \bm{j}=\begin{pmatrix} 0\\ 1 \end{pmatrix}$ , $\bm x$ 的横坐标和纵坐标分别是：
$\begin{aligned} x_1 &= \bm{x}^T\bm{i}=1 \\ x_2 &=\bm{x}^T\bm{j}=2 \end{aligned}$
当然在平面上我们也可以选择另外两个线性无关的向量作为基向量比如取这么一组基向量 $\bm i$ 和 $\bm j$ ：
$\bm{i}=\begin{pmatrix} \frac{1}{\sqrt 2}\\ \frac{1}{\sqrt 2} \end{pmatrix}, \bm{j}=\begin{pmatrix} -\frac{1}{\sqrt 2}\\ \frac{1}{\sqrt 2} \end{pmatrix}$
$\bm x$ 的在新基下的横坐标和纵坐标分别是：
$\begin{aligned} x^\prime_1 &= \bm{x}^T\bm{i}=\frac{5}{\sqrt 2} \\ x^\prime_2 &=\bm{x}^T\bm{j}=\frac{1}{\sqrt 2} \end{aligned}$
求新坐标的过程可以用矩阵运算来表示：
$\begin{pmatrix} \bm{i}^T\\ \bm{j}^T \end{pmatrix} \bm{x}=\begin{pmatrix} x^\prime_1 \\ x^\prime_2 \end{pmatrix}$ 即 $\begin{pmatrix} \frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} \\ -\frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} \end{pmatrix} \begin{pmatrix} 1\\ 2 \end{pmatrix}= \begin{pmatrix} \frac{3}{\sqrt 2}\\ \frac{1}{\sqrt 2} \end{pmatrix}$
左边矩阵第一行是第一个基向量，第二行是第二个基向量，乘以原向量，结果就是新基下的坐标。假如我们有很多数据点 $(1, 2), (2, 3), (3, 4)$ ，则它们在新基下的坐标就是：
$\begin{pmatrix} \frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} \\ -\frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} \end{pmatrix} \begin{pmatrix} 1 & 2 & 3\\ 2 & 3 & 4 \end{pmatrix}= \begin{pmatrix} \frac{3}{\sqrt 2} & \frac{5}{\sqrt 2} & \frac{7}{\sqrt 2}\\ \frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} & \frac{1}{\sqrt 2} \end{pmatrix}$
写成通用的形式就是：
$\begin{pmatrix} \bm{p^T_1} \\ \bm{p^T_2} \\ \vdots \\ \bm{p^T_k} \end{pmatrix} \begin{pmatrix} \bm{a_1} & \bm{a_2} & \ldots & \bm{a_m} \end{pmatrix}= \begin{pmatrix} \bm{p^T_1a_1} & \bm{p^T_1a_2} & \ldots & \bm{p^T_1a_m} \\ \bm{p^T_2a_1} & \bm{p^T_2a_2} & \ldots & \bm{p^T_2a_m} \\ \vdots & \vdots & \ddots & \vdots \\ \bm{p^T_ka_1} & \bm{p^T_ka_2} & \ldots & \bm{p^T_ka_m} \end{pmatrix}$
这里的 $\bm p_i$ 和 $\bm a_i$ 都是列向量。 $\bm a_i$ 表示第 $i$ 个样本数据看到这里我们就明白了:

一个矩阵乘以一个列向量可以解释为把该列向量变换到以矩阵的行向量为基向量的空间中去。

两个矩阵相乘就可以看作是把右边矩阵的每一个列向量变换到以左边矩阵的所有行向量组成的基向量的空间中去。

最大可分性

选择不同的基可以对同样一组数据给出不同的表示，如果基的数量少于向量本身的维数，则可以达到降维的效果。

那么如果我们想把一组 N 维的数据降到 K维，我们应该如何选择最优的 K 个基呢？或者说我们该如何选择 K 个基，才能尽可能多地保留原来数据的信息呢？

一种直观的看法是：希望投影后的投影值尽可能分散，因为如果重叠就会有样本消失。当然这个也可以从熵的角度进行理解，投影值越分散，投影值的方差就越大，熵就越大所含信息越多。

总体方差和样本方差

数值的分散可以用方差来表示，方差分为总体方差和样本方差。在数据是一维的情况下，设有一个一维随机变量 $A$ , 则总体方差是：
$Var(A)=\frac{1}{m}\sum_{i=1}^{m}{(a_i-\mu)^2}$
而为了保证样本方差是总体方差的无偏估计，样本方差的定义中，是除以 $m - 1$ 而非样本数 $m$ :
$S(A)=\frac{1}{m-1}\sum_{i=1}^{m}{(a_i-\mu)^2}$
我们要降维的数据属于样本，故应该用样本方差来衡量数据的分散程度。为了简便计算，我们对数值先做归一化，使它们的均值为 $0$ :
$S(A)=\frac{1}{m-1}\sum_{i=1}^{m}{a_i^2} \tag{1}$
我们的问题就转化为寻找一个基向量，使得样本点投影到该基向量方向上的投影值尽可能分散，即投影值的方差最大。

协方差

在一维的情况下，我们用方差来衡量随机变量自身的分散程度，如果有多个随机变量，我们用协方差来衡量它们之间的相关性。， A 和 B 两个随机变量的协方差是：
$Cov(\bm{A}, \bm{B})=\frac{1}{m-1}\sum_{i=1}^{m}{(a_i-\mu_a)(b_i-\mu_b)}$
如果协方差为0，则表示这两个一维随机变量是线性无关的。
为了简便，我们同样先对数据做零均值化：
$Cov(\bm{A}, \bm{B})=\frac{1}{m-1}\sum_{i=1}^{m}{a_ib_i} \tag{2}$
协方差为零表示两个随机变量线性无关。 为了使保留下来的信息尽可能多，不冗余，我们选择的 K 个基向量应该是线性无关的，即相互正交。一般我们会把基向量归一化成单位向量。我们的目标就是即把一组N维数据降到K维，需要找到K个N维正交单位向量，使原始数据变换到这组基向量空间后，各个随机变量之间的协方差为0，而自身的变量方差最大。这里所说的变量就是数据的特征，数据从N维降到K维就是从N个数据特征降到K个数据特征的过程。

协方差矩阵

设有两个特征，即两个随机变量 $\bm{A}$ 和 $\bm{B}$ , 有 $m$ 个样本，把它们用矩阵表示，每列是一个样本，每行是一个特征：
$X=\begin{pmatrix}\bm a^T \\ \bm b^T\end{pmatrix}= \begin{pmatrix} a_1 & a_2 & \ldots & a_m \\ b_1 & b_2 & \ldots & b_m \\ \end{pmatrix}$
其中 $\bm a$ 和 $\bm b$ 分别是：
$\bm a= \begin{pmatrix} a_1 \\ a_2 \\ \vdots\\ a_m \end{pmatrix}, \bm b= \begin{pmatrix} b_1 \\ b_2 \\ \vdots\\ b_m \end{pmatrix}$
相当于我们现在有一个随机向量 $\bm{v}$ ：
$\bm{v}= \begin{pmatrix} A \\ B \end{pmatrix}$
然后有m个服从 $\bm{v}$ 的分布的样本, 每列一个样本组成了 $X$ 。在多维空间下，我们用协方差矩阵来衡量随机向量的各个维度对应的随机变量之间的协方差。当然了一维随机变量与自身的协方差就是方差即 $C o v (A, A) = S (A)$ 。协方差矩阵公式如下：
$Cov(\bm v)= \begin{pmatrix} Cov(A,A) &Cov(A,B) \\ Cov(B,A) &Cov(B,B) \end{pmatrix}$
考虑 $(1)$ 和 $(2)$ ,有：
$\begin{aligned} Cov(\bm v) &= \begin{pmatrix} \displaystyle\frac{1}{m-1}\displaystyle\sum_{i=1}^{m}{a_i^2} & \displaystyle\frac{1}{m-1}\displaystyle\sum_{i=1}^{m}{a_ib_i}\\ \displaystyle\frac{1}{m-1}\displaystyle\sum_{i=1}^{m}{b_ia_i}& \displaystyle\frac{1}{m-1}\displaystyle\sum_{i=1}^{m}{b_i^2}\\ \end{pmatrix} \\ &=\displaystyle\frac{1}{m-1} \begin{pmatrix} \bm{a^Ta}& \bm{a^Tb} \\ \bm{b^Ta}& \bm{b^Tb} \end{pmatrix} \\ &=\displaystyle\frac{1}{m-1} \begin{pmatrix}\bm a^T \\ \bm b^T\end{pmatrix}\begin{pmatrix}\bm a &\bm b\end{pmatrix}\\ &=\displaystyle\frac{1}{m-1}XX^T \end{aligned}$
至此，我们得到了原始数据矩阵和随机向量 $\bm v$ 的协方差矩阵的关系式：
$Cov(\bm v)=\displaystyle\frac{1}{m-1}XX^T$
目前的随机向量 $\bm v$ 是2维的，当它是 $n$ 维的时候，显然也有：
设有一个 $n$ 维随机向量 $\bm v$ , 它每一维都是一个一维随机变量，有 $m$ 个服从 $\bm v$ 分布的 $n$ 维向量按照每列一个 $n$ 维向量共 $m$ 列组成原始数据矩阵 $X$ ，则随机向量 $v$ 的协方差矩阵 $C$ 和数据矩阵 $X$ 的关系满足 :
$C=\displaystyle\frac{1}{m-1}XX^T \tag{3}$

矩阵对角化

现在我们的目标就是使得基变换后降维的随机变量的协方差矩阵的对角线元素尽可能的大，而对角线以外的元素为0，这样就能保证在各个投影轴上的投影值尽可能分散，而各个投影轴直接是线性无关即相互正交，使得降维后的各个新特征的信息不冗余。设我们的基变换矩阵是 $P$ , 原始数据矩阵 $X$ 变换后的新数据矩阵是 $Y = P X$ , 变换后新随机向量 $\bm {v\prime}$ 的协方差矩阵是 $D$ , 我们有：
$\begin{aligned} D &= \frac{1}{m-1}YY^T \\ &= \frac{1}{m-1}(PX)(PX)^T \\ &= \frac{1}{m-1}PXX^TP^T \\ &= P(\frac{1}{m-1}XX^T)P^T \\ &=PCP^T \end{aligned}$
到这里我们发现，我们要找的基变换矩阵 $P$ 是把原协方差矩阵 $C$ 对角化并且使得 $PCP^T$ 的对角线元素从从上往下是从大到小排列的矩阵，如果我们要把原来的数据从 $n$ 维降到 $k$ 维，那么只要取 $P$ 的前 $k$ 行作为降维的基变换矩阵即可达到我们的目标。
那么我们该如何找到矩阵 $P$ 呢？协方差矩阵 $C$ 是一个实对称矩阵，实对称矩阵有以下性质：

实对称矩阵的不同特征值对应的特征向量相互正交
设特征向量 $\lambda$ 的重数为 $r$ ，必定存在 $r$ 个线性无关的特征向量对应于 $\lambda$ ，因此可以将这 $r$ 个线性无关的特征向量单位正交化。

注意我们的协方差矩阵 $C$ 是大小是 $n \times n$ ，对于这样的实对称矩阵一定可以对角化，我们一定可以找到 $n$ 个正交单位向量 $\bm {e_1, e_2, \ldots,e_n}$ , 把它们按列组成矩阵 $(\bm{e_1, e_2, \ldots,e_n})$ ,则我们有以下结论：
$E^TCE=\Lambda= \begin{pmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & & \lambda_n \end{pmatrix}$
其中 $\Lambda$ 是对角阵，对角线上的元素是 $C$ 的特征值。现在我们可以发现， $\Lambda$ 实际就是 $D$ , 其对角线元素即 $C$ 的每个特征值就是投影后在各个轴上的方差：
$E^T \tag{4}$
$P$ 是协方差矩阵 $C$ 的特征向量单位化后按行排列出的矩阵，其中每一行都是 $C$ 的一个特征向量。如果设 $P$ 按照 $\Lambda$ 中特征值从大到小，将特征向量从上到下排列，则用 P 的前 K 行组成的矩阵乘以原始数据矩阵 $X$ ，就得到了我们需要的降维后的数据矩阵 $Y$ 。

拉格朗日乘子法

我们也可以用拉格朗日乘子法来推导找到 $P$ ，设原数据矩阵 $X=(\bm{x_1, x_2, \ldots, x_n})$
样本点 $\bm x_i$ 在某个单位正交基 $\bm{w_j}$ 方向上的投影值是 $\bm{x_i^T w_j}$ , 我们有原始数据在 $\bm{w_j}$ 方向上的投影值的方差：
$\begin{aligned} D_j&=\frac{1}{m-1}{\sum_{i=1}^{m}{(\bm{x_i^T w_j)^2}}}\\ &=\frac{1}{m-1}{\sum_{i=1}^{m}{(\bm{x_i^T w_j)}^T(\bm{x_i^T w_j)}} } \\ &=\frac{1}{m-1}{\sum_{i=1}^m\bm{w_j^Tx_i x_i^Tw_j}} \\ &=\bm{w_j^T}(\frac{1}{m-1}\sum_{i=1}^m\bm{x_ix_i^T})\bm{w_j}\\ &=\bm{w_j^T}(\frac{1}{m-1}XX^T)\bm{w_j} \\ &=\bm{w_j^T}C\bm{w_j} \end{aligned}$
现在我们的目标和条件是：
$\begin{cases} max \{\bm{w_j^T}C\bm{w_j}\} \\ \bm{w_j^Tw_j=1} \end{cases}$
用拉格朗日函数表示：
$L(\bm {w_j})=\bm{w_j^T}C\bm{w_j}+ \lambda(1-\bm{w_j^Tw_j})$
对 $\bm{w_j}$ 求导，令其为 $0$ ：
$C\bm{w_j}= \lambda\bm{w_j}$
这里表明， $\bm{w_j}$ 是 $C$ 的特征向量， $\lambda$ 是对应的特征值。而且有：
$D_j=\bm{w_j^T}C\bm{w_j}=\bm{w_j^T}\lambda\bm{w_j}=\lambda\bm{w_j^T}\bm{w_j}=\lambda$
我们发现投影后的最大方差就是基向量 $\bm{w_j}$ 对应的特征值。我们要找的 $k$ 个投影用的基向量就是 $C$ 的最大的 $k$ 个特征值对应的单位特征向量。

总结PCA的步骤

PCA的求解步骤如下：

1.把 $m$ 个 $n$ 维向量表示的样本按列组成原始数据矩阵 $X$

2.把 $X$ 的每个特征，即每一行进行零均值化，即每个元素减去这行的均值

3.求出协方差矩阵 $C=\displaystyle\frac{1}{m-1}XX^T$ 的特征值和对应的单位特征向量

4.把 $C$ 的单位特征向量按照特征值从大到小，按行组成矩阵，取前 $k$ 行组成基变换矩阵 $P$

5.降维后的 $k$ 行 $m$ 列数据矩阵就是 $Y = P X$

PCA的特点

缓解维度灾难：PCA降维后，使得样本的采样密度增大了。
降噪：当数据收到噪声影响时，最小的特征值对应的特征向量往往与噪声相关，降维的过程中将它们舍弃，可以起到降噪的效果。
过拟合：由于PCA舍去了一些信息，而这些信息可能是分类或者回归需要的关键信息，只是在训练集上没有重要表现，导致在训练集上过拟合。
特征独立：PCA不仅使数据降到低维，还使得降维之后的数据特征相互独立。

细节

零均值化

当使用PCA对训练集进行降维时，也需要对验证集和测试集做同样的PCA。而且对验证集、测试集零均值化用的均值必须是训练集的均值，因为验证集和测试集是不可观测的。

PCA和SVD的关系

PCA本质是特征值分解，而特征值和特征向量只有方阵才有，而对与任意矩阵都可以做奇异值分解。

PCA

对于一个实对称方阵 $A$ ，总可以对角化:
$A=P\Lambda P^{-1}$
如果 $P$ 是正交矩阵，有 $P^T=P^{-1}$ , 进而有：
$A=P\Lambda P^{T}$

SVD

一个矩阵 $A_{n,m}$ 可以进行奇异值分解：
$A_{n,m}=U_{n,n}\Sigma_{n,m} {V^T}_{m,m} \approx U_{n,k}\Sigma_{k,k} {V^T}_{k,m}$
这里的 $U_{n,n}$ 和 $V_{m,m}$ 都是正交矩阵,。满足 $U_{n,n} {U^T}_{n,n}=I_{n}$ , $V_{m,m} {V^T}_{m,m}=I_{m}$ 。后面的约等于是因为 $\Sigma$ 有多个奇异值，对角线上的奇异值按从大到小从上往下排列，那么后面很多其实很小接近于 $0$ , 不妨近似取前 $k$ 个较大的。
$\begin{aligned} A^TA&=(U\Sigma V^T)^T(U\Sigma V^T)=V\Sigma^2 V^T \\ AA^T &= (U\Sigma V^T)(U\Sigma V^T)^T=U\Sigma^2 U^T \end{aligned}$ 可见， $V$ 的每一列是 $A^TA$ 的特征向量， $U$ 的每一列是 $AA^T$ 的特征向量。 $\Sigma^2$ 的对角线元素是 $A^TA$ 和 $AA^T$ 的特征值。记它们的特征值矩阵维 $\Lambda$ :
$\Lambda=\Sigma^2$ 可见 $A^TA$ 和 $AA^T$ 的特征值是 $A$ 的对应奇异值的平方。
在PCA中，我们需要对协方差矩阵 $C=\frac{1}{m-1}XX^T$ 进行特征值分解，如果令 $A=\frac{1}{\sqrt{m-1}}X$ , 则 $C=AA^T$ , 对 $A$ 进行奇异值分解可以等价于对 $C$ 进行特征值分解。
可以用 SVD 替代来求解 PCA：