背景介绍
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术,也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面,
主成分回归分析是为了克服最小二乘法(LS)估计在数据矩阵 A 存在多重共线时表现出的不稳定性而提出来的。
主要目的
希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中变量的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法
##基本思想及方法 如果用
x1,x2,...,xp
表示p门课程,
c1,c2,...,cp
表示各门课程的权重,那么加权之和是
s=c1x1+c2x2+...+cpxp
我们希望选择适当的权重能更好地区分学生的成绩,每个学生都对应一个这样的综合成绩,记为
s1,s2,...,sn,n
为学生人数。如果这些值很分散,就表明区得好,即使说,需要寻找这样的加权,能使
s1,s2,...,sn
尽可能地分散,下面看它的统计定义 设
X1,X2,...,Xp
表示以
x1,x2,...,xp
为样本观测值的随机变量,如果能找到
c1,c2,...,cp
,使得
Var(c1X1+c2X2+...+cpXp)
的值达到最大。则由于方差反映了数据差异的程度,也就表明我们抓住了这p个变量的最大变量。 当然上式必须加上某种限制,否则权值可选择无穷大而没有意义,通常规定:
c21+c22+...+c2p=1
。在此约束下,再求上式的最优解。这个解是p-维空间的一个单位向量,它代表一个“方向”,就是常说的主成分方向 一个主成分不足以代表原来p个变量,因此需要寻找第二个乃至第三个、第四个主成分,第二个主成分不应该再包含第一个主成分的信息,
统计上的描述就是让这两个主成分的协方差为0,几何上就是这两个主成分的方向正交。具体确定各个主成分的方法如下 设
Zi
表示第i个主成分,i=1,2,…p,可设
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪Z1Z2Zp===c11X1c21X1cp1X1+++c12X2c22X2cp2X2++...+.........+++c1pXpc2pXpcppXp
(1) 其中:对每一个 i,均有
c2i1+c2i2+...+c2ip=1
,且
[c11,c12,...,c1p]
使得
Var(Z1)
的值达到最大;
[