一、 什么是主成分分析
主成分分析(principal components analysis)也称主分量分析,是由霍特林于1933年首次提出的。主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。
简单地说,主成分分析就是在研究问题选取的指标比较多、研究的问题比较复杂时,可以把原来研究的指标做几个线性组合,即主成分,来解释原来变量绝大对数信息的一种多元统计方法。
二、 主成分分析的意义
通过主成分分析,可以从事物间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征发展规律的一些深层次的启发,把研究工作引向深入。
三、 主成分分析的步骤
(1) 根据研究问题选取初始分析变量;
(2) 根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;
(3) 求协方差阵或相关阵的特征根与相应标准特征向量;
(4) 判断是否存在明显的多重共线性,若存在,则返回第(1)步;
(5) 得到主成分的表达式并确定主成分个数,选取主成分;
(6) 结合主成分对研究问题进行分析并深入研究。
四、 全国各地区公用设施水平主成分分析实例
4.1 案例描述
为了了解全国各个地区的公用设施建设水平,选取了九个指标来描述各个地区的公用设施水平,分别是人口密度、人均生活用水量、供水普及率、燃气普及率、人均道路面积、排水管道暗渠密度、人均公园绿地面积、绿化覆盖率、绿地率,原始数据如下表所示,由于衡量各地区公用设施建设水平的指标比较多,有9个,我们的目的是使用少数几个主成分去代替原始变量的绝大对数信息,达到降低指标数量,降低分析难度的作用。(注:数据来源于2013年的《中国统计年鉴》)。
表1分地区建制镇市政公用设施水平
地区 |
人口密度(人/平方公里) |
人均日生活用水量 |
供水普及率(%) |
燃气普及率(%) |
人均道路面积(平方米) |
排水管道暗渠密度(公里/平方公里) |
人均公园绿地面积(平方米) |
绿化覆盖率(%) |
绿地率(%) |
全国 |
4947 |
98.58 |
81.73 |
46.44 |
12.26 |
6.75 |
2.37 |
15.42 |
8.64 |
北京 |
4139 |
102.31 |
85.43 |
57.32 |
13.92 |
7.13 |
5.27 |
21.97 |
12.77 |
天津 |
4219 |
88.7 |
94.93 |
66.95 |
16.25 |
6.45 |
1.21 |
18.19 |
7.46 |
河北 |
4582 |
65.82 |
81.59 |
37.44 |
10.84 |
2.67 |
0.52 |
9.6 |
4.38 |
山西 |
5240 |
72.98 |
86.57 |
14.28 |
12.48 |
5.12 |
0.91 |
20.17 |
8.03 |
内蒙古 |
3185 |
75.77 |
60.38 |
15.8 |
10.23 |
1.99 |
1.58 |
9.43 |
4.46 |
辽宁 |
3726 |
81.34 |
72.27 |
29.92 |
12.24 |
3.96 |
1.14 |
10.62 |
3.17 |
吉林 |
3880 |
76.1 |
73.25 |
20.9 |
10.83 |
1.99 |
0.94 |
5.45 |
2.13 |
黑龙江 |
3680 |
66.04 |
81.83 |
18.88 |
15.34 |
2.14 |
1.16 |
5.31 |
2.32 |
上海 |
4914 |
144.82 |
91.56 |
85.39 |
10.25 |
4.41 |
2.13 |
16.26 |
10.92 |
江苏 |
5714 |
103.07 |
96.38 |
84.73 |
17.65 |
9.84 |
5.84 |
25.75 |
18.69 |
浙江 |
4925 |
123.06 |
78.55 |
52.62 |
13.18 |
6.97 |
2.29 |
14.1 |
9.05 |
安徽 |
4933 |
99.79 |
68.69 |