1、基本思想
目标:在保证数据信息丢失最少的前提下,将原来众多具有相关性的指标转化为少数几个相互独立的综合指标。
作用:(1)、解决多重共线性。(2)、将高维数据进行降维处理。
2、数学模型
如下所示数学模型,X1-XP为原始指标,F1-FP为新的主成分,每一个主成分都是原始指标的线性组合,充分反映原始指标的信息,并且相互独立。
模型需要满足的条件:
(1)每个主成分与原始变量的系数的平方和为1。
(2)主成分之间相互独立,主成分之间的协方差为0。
(3)按照主成分的方差依次递减,即按照主成分的重要程度(包含信息量多少)依次递减。
3、几何直观
投影、旋转坐标轴:
旋转的目的:为使原始数据在F1上投影的离散程度最大,即F1的方差最大。
投影的离散化程度越大,即投影误差越小。F1是可以最小化投影误差的平方的方向,描述数据的主要变化。F2是与F1垂直,且除去F1这个方向外,可以最小化投影误差的平方的方向。即椭圆的长轴描述了数据的主要变化,短轴描述了数据的次要变化。
如我们的原始数据为X1和X2两维,可考虑将数据降为1维F1,舍去了次要的一维。