主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
主成分分析的意义
主成分分析是把各变量之间互相关联的复杂关系进行简化的分析方法。
主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量进行降维处理。
研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息,这种分析叫主成分分析,这些综合指标就称为主成分,主成分间不相关。
主成分分析中要思考的问题
(1) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。
(2) 选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。
(3) 解释主成分所包含的意义。
下面的四张图中,哪一种有更高的精度?原始变量的信息损失最少?
![b5d3ed2d6688cbae0bedd13bf346923c.png](https://img-blog.csdnimg.cn/img_convert/b5d3ed2d6688cbae0bedd13bf346923c.png)
![f01f28d970a81c61731ffcf385d1645c.png](https://img-blog.csdnimg.cn/img_convert/f01f28d970a81c61731ffcf385d1645c.png)
![dd1abf410834979d8b025bee93f625a4.png](https://img-blog.csdnimg.cn/img_convert/dd1abf410834979d8b025bee93f625a4.png)
![fb3b528ae9851a10489cd669297a2522.png](https://img-blog.csdnimg.cn/img_convert/fb3b528ae9851a10489cd669297a2522.png)
旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴