对PCA的理解

    注:本文着重介绍总体主成分,样本主成分同总体主成分,只不过是在有限的样本上进行的主成分计算。

一、概要

    数据不同维度之间往往存在相关性,比如人的收入和职位,西瓜的色泽和光照强度等。很多情况下,为了便于分析数据,理解数据中的基本结构,需要将数据映射到一个新的维度互不相关的新坐标空间,同时最大程度的保留原有数据的信息。主成分分析(PCA)就是满足这种需求的一种技术,其目标是寻找一组相互正交的坐标轴,即一组相互正交的向量,且这些向量需要满足一定的条件,需要满足什么样的条件,下文进行介绍。

          符号说明:随机变量 \textbf{\textit{x}}\textbf{\textit{y}} 属于\textbf{\textit{R}}^n, \textbf{\textit{x}} 的协方差矩阵为 \Sigma 属于 \textbf{\textit{R}}^{n\times n}\Sigma 的 n 个特征值由大到小依次是 \lambda _1,\lambda _2,...,\lambda _n, 对应的特征向量依次是\alpha _1,\alpha _2,...,\alpha _n

 

二、协方差矩阵

     设 \textbf{\textit{x}} 为 (x_1,x_2,x_3)^T\in R^3,则 \textbf{\textit{x}} 的协方差矩阵 \Sigma 定义为:

                                                                 \begin{bmatrix} cov(x_1,x_1) & cov(x_1,x_2) & cov(x_1,x_3)\\ cov(x_2,x_1) & cov(x_2,x_2) & cov(x_2,x_3) \\ cov(x_3,x_1) & cov(x_3,x_2) & cov(x_3,x_3) \end{bmatrix}

     显然,由协方差的定义可知,主对角线上的元素分别表示 \textbf{\textit{x}} 每个维度的方差。非对角线元素表示两个不同维度之间的相关性, cov(x_i,x_j)> 0(i\neq j)cov(x_i,x_j)< 0(i\neq j) 以及 cov(x_i,x_j)= 0(i\neq j) 分别表示两个维度是正相关、负相关和不相关。显然,协方差矩阵是对称矩阵,这一点非常重要,后面的内容都与协方差矩阵有关。

 

三、正交矩阵

    如果n\times n矩阵A 满足A^TA=I 或 AA^T=I,则 A 是正交矩阵。则正交矩阵满足如下性质:

  1.  \left \| A\textbf{\textit{x}} \right \| = \left \| \textbf{\textit{x}}\right \|
  2.  (A\textbf{\textit{x}})\cdot (A\textbf{\textit{y}})=\textbf{\textit{x}}\cdot \textbf{\textit{y}}

     性质1说明正交矩阵作用于向量上不会改变向量的长度;性质2说明正交矩阵作用于向量上之后不改变原有向量之间的夹角。

 

四、对称矩阵的正交对角化

    正交对角化的定义: 如果n\times n矩阵An\times n正交矩阵 P 以及n\times n对角矩阵 D 满足 A=PDP^{-1},则称 A 可正交对角化。

    n\times n矩阵A 可正交对角化的充要条件是 A 为对称矩阵。P 的列向量由 A 的 n 个线性无关且正交的特征向量构成。

    两个对后续很重要的结论诞生:

  •   协方差矩阵是对称矩阵,因此可以正交对角化。
  •   对于 n\times n对称矩阵A 以及向量 \textbf{\textit{x}},二次型 \textbf{\textit{x}}^TA\textbf{\textit{x}} 的最大值是 A 的最大特征值 \lambda_1,且最大值在\lambda_1 对应的特征向量处得到。

 

五、主成分

    PCA的目标是寻找一组新的相互正交的坐标轴,并将 \textbf{\textit{x}} 在新的坐标轴下进行表示。设这组正交向量为 \beta _1, \beta_2, \ ...\ ,\beta _n, \textbf{\textit{x}} 在每个向量上的投影为:

                                                                                         y_i=\beta _i^T\textbf{\textit{x}}

    则 cov(y_i,y_j)=0\ (i\neq j),其中 i,j=1,2,...,n。这是显然的,因为 y_i 和 y_j 分别是 \textbf{\textit{x}} 在两个互相正交的向量上的投影。

    说了这么多,什么是 \textbf{\textit{x}} 的主成分那?

    在 \textbf{\textit{x}} 的所有可能的投影变量中方差最大的即 \textbf{\textit{x}} 的第一主成分,即

                                                                             \max var(\beta^T\textbf{\textit{x}})=\max \beta ^T\Sigma \beta }

    据第四部分可知,该最大值是 \Sigma 的最大特征值 \lambda _1\beta 等于 \lambda _1 对应的特征向量 \alpha _1 ,设第一主成分为 y_1 。

    \textbf{\textit{x}} 的第二主成分,是与 y_1 不相关,且使得上式最大化的投影变量 y_2\textbf{\textit{x}} 的第 i 主成分是与 y_1,y_2,...,y_{i-1} 均不相关,且使得上式最大化的投影变量 y_i 。

    实际上,结合二次型相关理论,

                                                                                        y_k=\beta_k^T\textbf{\textit{x}}

                                                                               var(y_k)=\beta_k^T\Sigma \beta_k=\lambda _k

    因此,主成分的焦点就在于 \textbf{\textit{x}} 的协方差矩阵。

    同时,也可以得到各个主成分的方差之和等于 \textbf{\textit{x}} 各个维度的方差之和。第三部分给出了解释

 

六、应用

    PCA的应用主要是用来降维,通常我们会选取前 k 个主成分来近似原始数据,k 的选择参照方差贡献率,可在此不再详述。

    其次,对数据进行主成分分析之前,需要将数据规范化,这主要是为了解决不同维度间标度不一致问题。主要做法是将数据每一维度的均值变为0,方差变为1。若不做规范化,绝对方差值较大的维度在进行主成分分析时将起到主导作用,会使得计算结果出现不合理的情况。最后,在实践中,PCA是通过SVD中的迭代估计算法,对对称矩阵进行特征值和特征向量的计算,这也是SVD和PCA这两大技术的衔接之处。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值