一、简介
主成分分析是一种常用的无监督学习方法,这一方法利用正交变换(在线性代数中,正交变换是线性变换的一种。对一个由空间 R n R^n Rn投射到同一空间 R n R^n Rn的线性转换,如果转换后的向量长度与转换前的长度相同,则为正交变换)把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于降维方法。
主成分分析中,首先对给定数据进行规范化[1],使得数据每一变量的平均值为0,方差为1。之后对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换变成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中 变量的方差的和(即信息保存)最大的,方差表示在新变量上的信息大小。将新变量依次称为第一主成分、第二主成分等,这就是主成分分析的基本思想。
直观解释:数据集合中的样本由实数空间(正交坐标系)中的点表示,空间的一个坐标轴表示一个变量,规范化处理后得到的数据分布在原点附近。对原坐标系中的数据进行主成分分析就等价于进行坐标系旋转变换,将数据投影到新坐标系的坐标轴上;新坐标系的第一坐标轴、第二坐标轴等分别表示第一主成分、第二主成分等,数据在每一轴上的坐标值的平方表示相应变量的方差;并且,这个坐标系是在所有的新的坐标系中,坐标轴上的方差的和最大的。
主成分的选取:在旋转变换后的所有坐标系中,主成分分析先选择方差最大的方向作为新坐标系的第一坐标轴,即第一主成分;然后选择与第一坐标轴正交,且方差最大的方向作为第二坐标轴,即第二主成分,以此类推。
不妨设样本点 A A A、 B B B,在新坐标轴的上的投影是 A ∗ A^* A∗、 B ∗ B^* B∗,那么 ∣ O A ∗ ∣ 2 + ∣ O B ∗ ∣ 2 |OA^*|^2+|OB^*|^2 ∣OA∗∣2+∣OB∗∣2就是样本在新坐标轴上的方差和。主成分分析就是选取在所有的坐标轴中,使 ∣ O A ∗ ∣ 2 + ∣ O B ∗ ∣ 2 |OA^*|^2+|OB^*|^2 ∣OA∗∣2+∣OB∗∣2最大的那个坐标轴作为第一坐标轴。而 ∣ O A ∣ 2 + ∣ O B ∣ 2 |OA|^2+|OB|^2 ∣OA∣2+∣OB∣2是不变的,结合勾股定理, ∣ O A ∗ ∣ 2 + ∣ O B ∗ ∣ 2 |OA^*|^2+|OB^*|^2 ∣OA∗∣2+∣OB∗∣2最大等价于 ∣ A A ∗ ∣ 2 + ∣ B B ∗ ∣ 2 |AA^*|^2+|BB^*|^2 ∣AA∗∣2+∣BB∗∣2最小,所以等价的,主成分分析在旋转变换中选取离样本点的距离平方和最小的轴作为第一主成分,第二坐标轴等的选取,在保证与已选坐标轴正交的条件下,类似的进行。
二、定义和导出
假设 x = ( x 1 , x 2 , ⋯ , x m ) T \bm{x} = (x_1, x_2, \cdots, x_m)^T x=(x1,x2,⋯,xm)T是 m m m维随机变量,其均值 μ \bm \mu μ是 μ = E ( x ) = ( μ 1 , μ 2 , ⋯ , μ m ) T \bm \mu = E(\bm x) = (\mu_1, \mu_2, \cdots, \mu_m)^T μ=E(x)=(μ1,μ2,⋯,μm)T
其协方差矩阵 Σ \Sigma Σ是 Σ = c o v ( x , x ) = E [ ( x − μ ) ( x − μ ) T ] \Sigma = cov(\bm x, \bm x)=E[(\bm x - \bm \mu)(\bm x - \bm \mu)^T] Σ=cov(x,x)=E[(x−μ)(x−μ)T]
考虑由 m m m维随机变量 x \bm x x到 m m m维随机变量 y = ( y 1 , y 2 , ⋯ , y m ) T \bm y = (y_1, y_2, \cdots, y_m)^T y=(y1,y2,⋯,y