1.含义
主成分分析的基本思想是通过构造多个变量的线性组合,产生一系列互不相关的新变量,并从中选出少数的几个新变量使它们包含尽可能多的原变量所包含的数据信息。代替原变量分析问题,从而避免原变量之间产生共线性。
2.相关概念
记样本数据矩阵为:
(1.1)
表示样本数据的各列,也就是每条数据的第j个分量,表示各个特征指标。
表示样本数据的各行,表示各条数据,则样本数据的方差矩阵为:
(1.2)
其中:
(1.3)(1.4)
样本的相关系数举矩阵R为:
(1.5)
其中 :
(1.6)(1.7)
3.从协方差矩阵S出发求主成分
设为协方差矩阵S(公式(1.2))的特征值,
是其相对应的单位特征向量,且彼此正交,设定第i个主成分为:
(1.8)
样本主成分写为:
亦可以从相关系数出发求主成分,其与协方差出发区别是将原始变量进行了标准化处理。
这样就把原数据转化成了互不相关的数据形式,接下来要做的就是按照多元线性回归预测数据解决问题。