注:本文着重介绍总体主成分,样本主成分同总体主成分,只不过是在有限的样本上进行的主成分计算。
一、概要
数据不同维度之间往往存在相关性,比如人的收入和职位,西瓜的色泽和光照强度等。很多情况下,为了便于分析数据,理解数据中的基本结构,需要将数据映射到一个新的维度互不相关的新坐标空间,同时最大程度的保留原有数据的信息。主成分分析(PCA)就是满足这种需求的一种技术,其目标是寻找一组相互正交的坐标轴,即一组相互正交的向量,且这些向量需要满足一定的条件,需要满足什么样的条件,下文进行介绍。
符号说明:随机变量 , 属于, 的协方差矩阵为 属于 , 的 个特征值由大到小依次是 , 对应的特征向量依次是。
二、协方差矩阵
设 为 ,则 的协方差矩阵 定义为:
显然,由协方差的定义可知,主对角线上的元素分别表示 每个维度的方差。非对角线元素表示两个不同维度之间的相关性, , 以及 分别表示两个维度是正相关、负相关和不相关。显然,协方差矩阵是对称矩阵,这一点非常重要,后面的内容都与协方差矩阵有关。
三、正交矩阵
如果矩阵 满足 或 ,则 是正交矩阵。则正交矩阵满足如下性质:
性质1说明正交矩阵作用于向量上不会改变向量的长度;性质2说明正交矩阵作用于向量上之后不改变原有向量之间的夹角。
四、对称矩阵的正交对角化
正交对角化的定义: 如果矩阵,正交矩阵 以及对角矩阵 满足 ,则称 可正交对角化。
矩阵 可正交对角化的充要条件是 为对称矩阵。 的列向量由 的 个线性无关且正交的特征向量构成。
两个对后续很重要的结论诞生:
- 协方差矩阵是对称矩阵,因此可以正交对角化。
- 对于 对称矩阵 以及向量 ,二次型 的最大值是 的最大特征值 ,且最大值在 对应的特征向量处得到。
五、主成分
PCA的目标是寻找一组新的相互正交的坐标轴,并将 在新的坐标轴下进行表示。设这组正交向量为 , 在每个向量上的投影为:
则 ,其中 。这是显然的,因为 和 分别是 在两个互相正交的向量上的投影。
说了这么多,什么是 的主成分那?
在 的所有可能的投影变量中方差最大的即 的第一主成分,即
据第四部分可知,该最大值是 的最大特征值 , 等于 对应的特征向量 ,设第一主成分为 。
的第二主成分,是与 不相关,且使得上式最大化的投影变量 , 的第 主成分是与 均不相关,且使得上式最大化的投影变量 。
实际上,结合二次型相关理论,
因此,主成分的焦点就在于 的协方差矩阵。
同时,也可以得到各个主成分的方差之和等于 各个维度的方差之和。第三部分给出了解释。
六、应用
PCA的应用主要是用来降维,通常我们会选取前 个主成分来近似原始数据, 的选择参照方差贡献率,可在此不再详述。
其次,对数据进行主成分分析之前,需要将数据规范化,这主要是为了解决不同维度间标度不一致问题。主要做法是将数据每一维度的均值变为0,方差变为1。若不做规范化,绝对方差值较大的维度在进行主成分分析时将起到主导作用,会使得计算结果出现不合理的情况。最后,在实践中,PCA是通过SVD中的迭代估计算法,对对称矩阵进行特征值和特征向量的计算,这也是SVD和PCA这两大技术的衔接之处。