对PCA的理解

最新推荐文章于 2022-06-06 15:22:21 发布

Paul-LangJun

最新推荐文章于 2022-06-06 15:22:21 发布

阅读量757

点赞数

分类专栏：机器学习概率与统计线性代数文章标签：线性代数矩阵概率论

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/109547864

版权

机器学习同时被 3 个专栏收录

35 篇文章 4 订阅

订阅专栏

概率与统计

21 篇文章 0 订阅

订阅专栏

线性代数

7 篇文章 0 订阅

订阅专栏

注：本文着重介绍总体主成分，样本主成分同总体主成分，只不过是在有限的样本上进行的主成分计算。

一、概要

数据不同维度之间往往存在相关性，比如人的收入和职位，西瓜的色泽和光照强度等。很多情况下，为了便于分析数据，理解数据中的基本结构，需要将数据映射到一个新的维度互不相关的新坐标空间，同时最大程度的保留原有数据的信息。主成分分析（PCA）就是满足这种需求的一种技术，其目标是寻找一组相互正交的坐标轴，即一组相互正交的向量，且这些向量需要满足一定的条件，需要满足什么样的条件，下文进行介绍。

符号说明：随机变量 $\textbf{\textit{x}}$ ， $\textbf{\textit{y}}$ 属于 $\textbf{\textit{R}}^n$ ， $\textbf{\textit{x}}$ 的协方差矩阵为 $\Sigma$ 属于 $\textbf{\textit{R}}^{n\times n}$ ， $\Sigma$ 的个特征值由大到小依次是 $\lambda _1,\lambda _2,...,\lambda _n$ ，对应的特征向量依次是 $\alpha _1,\alpha _2,...,\alpha _n$ 。

二、协方差矩阵

设 $\textbf{\textit{x}}$ 为 $(x_1,x_2,x_3)^T\in R^3$ ，则 $\textbf{\textit{x}}$ 的协方差矩阵 $\Sigma$ 定义为：

$\begin{bmatrix} cov(x_1,x_1) & cov(x_1,x_2) & cov(x_1,x_3)\\ cov(x_2,x_1) & cov(x_2,x_2) & cov(x_2,x_3) \\ cov(x_3,x_1) & cov(x_3,x_2) & cov(x_3,x_3) \end{bmatrix}$

显然，由协方差的定义可知，主对角线上的元素分别表示 $\textbf{\textit{x}}$ 每个维度的方差。非对角线元素表示两个不同维度之间的相关性， $cov(x_i,x_j)> 0(i\neq j)$ ， $cov(x_i,x_j)< 0(i\neq j)$ 以及 $cov(x_i,x_j)= 0(i\neq j)$ 分别表示两个维度是正相关、负相关和不相关。显然，协方差矩阵是对称矩阵，这一点非常重要，后面的内容都与协方差矩阵有关。

三、正交矩阵

如果 $n\times n$ 矩阵满足 A^TA=I 或 AA^T=I ，则是正交矩阵。则正交矩阵满足如下性质：

$\left \| A\textbf{\textit{x}} \right \| = \left \| \textbf{\textit{x}}\right \|$
$(A\textbf{\textit{x}})\cdot (A\textbf{\textit{y}})=\textbf{\textit{x}}\cdot \textbf{\textit{y}}$

性质1说明正交矩阵作用于向量上不会改变向量的长度；性质2说明正交矩阵作用于向量上之后不改变原有向量之间的夹角。

四、对称矩阵的正交对角化

正交对角化的定义：如果 $n\times n$ 矩阵， $n\times n$ 正交矩阵以及 $n\times n$ 对角矩阵满足 $A=PDP^{-1}$ ，则称可正交对角化。

$n\times n$ 矩阵可正交对角化的充要条件是为对称矩阵。 的列向量由的个线性无关且正交的特征向量构成。

两个对后续很重要的结论诞生：

协方差矩阵是对称矩阵，因此可以正交对角化。
对于 $n\times n$ 对称矩阵以及向量 $\textbf{\textit{x}}$ ，二次型 $\textbf{\textit{x}}^TA\textbf{\textit{x}}$ 的最大值是的最大特征值 $\lambda_1$ ，且最大值在 $\lambda_1$ 对应的特征向量处得到。

五、主成分

PCA的目标是寻找一组新的相互正交的坐标轴，并将 $\textbf{\textit{x}}$ 在新的坐标轴下进行表示。设这组正交向量为 $\beta _1, \beta_2, \ ...\ ,\beta _n$ ， $\textbf{\textit{x}}$ 在每个向量上的投影为：

$y_i=\beta _i^T\textbf{\textit{x}}$

则 $cov(y_i,y_j)=0\ (i\neq j)$ ，其中 i,j=1,2,...,n 。这是显然的，因为 y_i 和 y_j 分别是 $\textbf{\textit{x}}$ 在两个互相正交的向量上的投影。

说了这么多，什么是 $\textbf{\textit{x}}$ 的主成分那？

在 $\textbf{\textit{x}}$ 的所有可能的投影变量中方差最大的即 $\textbf{\textit{x}}$ 的第一主成分，即

$\max var(\beta^T\textbf{\textit{x}})=\max \beta ^T\Sigma \beta }$

据第四部分可知，该最大值是 $\Sigma$ 的最大特征值 $\lambda _1$ ， $\beta$ 等于 $\lambda _1$ 对应的特征向量 $\alpha _1$ ，设第一主成分为。

$\textbf{\textit{x}}$ 的第二主成分，是与 y_1 不相关，且使得上式最大化的投影变量 y_2 ， $\textbf{\textit{x}}$ 的第主成分是与 $y_1,y_2,...,y_{i-1}$ 均不相关，且使得上式最大化的投影变量 y_i 。

实际上，结合二次型相关理论，

$y_k=\beta_k^T\textbf{\textit{x}}$

$var(y_k)=\beta_k^T\Sigma \beta_k=\lambda _k$

因此，主成分的焦点就在于 $\textbf{\textit{x}}$ 的协方差矩阵。

同时，也可以得到各个主成分的方差之和等于 $\textbf{\textit{x}}$ 各个维度的方差之和。第三部分给出了解释。

六、应用

PCA的应用主要是用来降维，通常我们会选取前个主成分来近似原始数据，的选择参照方差贡献率，可在此不再详述。

其次，对数据进行主成分分析之前，需要将数据规范化，这主要是为了解决不同维度间标度不一致问题。主要做法是将数据每一维度的均值变为0，方差变为1。若不做规范化，绝对方差值较大的维度在进行主成分分析时将起到主导作用，会使得计算结果出现不合理的情况。最后，在实践中，PCA是通过SVD中的迭代估计算法，对对称矩阵进行特征值和特征向量的计算，这也是SVD和PCA这两大技术的衔接之处。