目录
在进行数据统计分析时,还往往会遇见变量特别多的情况,而且很多时候这些变量之间还存在着很强的相关关系或者说变量之间存在着很强的信息重叠,如果我们直接对数据进行分析,一方面会带来工作量的无畏的加大,另一方面还会出现一些模型应用的错误,于是主成分分析与因子分析应运而生。这两种分析方法的基本思想都是在不损失大量信息的前提下,利用较少的独立变量来替代原来的变量进行进一步的分析。
8.1主成分分析
基本思想是将众多的初始变量整合成少数几个互相无关的主成分变量,而这些新变量尽可能地包含了初始变量的全部信息,然后利用这些新的变量来代替以前的变量。
数据(案例8.1)一共V1-V19 19个变量,分别代表了年份、全国人口(万人)、农林牧渔业总产值(亿元)、工业总产值(亿元)、国内生产总值(亿元)、全社会投资总额(亿元)、货物周转量(亿吨千米)、社会消费品零售总额(亿元)、进出口贸易总额(亿元)、原煤(亿元)、发电量(亿千瓦时)、原油(万吨)、钢(万吨)、汽车(万辆)、布(亿米)、糖(万吨)、粮食(万吨)、棉花(万吨)、油料(万吨)。使用主成分分析对这些指标提取主成分并写出提取主成分与这些指标之间的表达式。
correlate V2-V19 #对18个变量进行相关性分析
结果如图所示。这里得到的是所有变量之间的方差-协方差矩阵。我们可以发现很多变脸之间的相关关系是非常强的甚至有的超过了90%,这说明变量之间存在着相当数量的信息重叠。我们进行主成分分析把众多的初始变量整合成少数几个相互之间无关的主成分变量是非常必要的。
pca V2-V19 #对18个变量进行主成分分析
结果如图所示,(Component)表示的是系统提取的主成分名称,可以发现,我们stata总共提取了18个主成分。Eigenvalue列表示的是系统提取的主成分特征值,特征值的大小意味着该主成分的解释能力,特征值越大解释能力越强,可以发现Stata提取的18个主成分中只有前7个是有效的。Proportion列表示的是系统提取的主成分的方差贡献率,方差贡献率也便是主成分的解释能力,可以发现第一个主成分的方差贡献率是0.8023,表示该主成分解释了所有变量的80.23%的信息。
这个图站试的是主成分特征向量矩阵,以表明各个主成分在各个变量上的载荷,从而可以的出主成分的表达式。在表达式中各个变量已经不是原始变量而是标准变量。其中第一个 特征值的主成分表达式是:
comp1 = 0.1377*V2+0.2605*V3+···+0.1913*V19
在第一主成分中,除了粮食变量(V17)以外的变量系数比较大,可以看成是