第8章 Stata主成分分析与因子分析

本文介绍了在数据统计分析中,面对变量多且相关性强的情况时,如何运用主成分分析与因子分析来简化变量并保留信息。主成分分析通过整合初始变量为少量主成分,因子分析则更深入地研究变量间的关系。文章详细讨论了主成因子法、主因子法、迭代公因子方差的主因子法和最大似然因子法,并提供了实例分析。
摘要由CSDN通过智能技术生成

     

目录

8.1主成分分析

8.2因子分析

1.主成因子法

2.主因子法

3.迭代公因子方差的主因子法

4.最大似然因子法


     在进行数据统计分析时,还往往会遇见变量特别多的情况,而且很多时候这些变量之间还存在着很强的相关关系或者说变量之间存在着很强的信息重叠,如果我们直接对数据进行分析,一方面会带来工作量的无畏的加大,另一方面还会出现一些模型应用的错误,于是主成分分析与因子分析应运而生。这两种分析方法的基本思想都是在不损失大量信息的前提下,利用较少的独立变量来替代原来的变量进行进一步的分析。

8.1主成分分析

        基本思想是将众多的初始变量整合成少数几个互相无关的主成分变量,而这些新变量尽可能地包含了初始变量的全部信息,然后利用这些新的变量来代替以前的变量。

        数据(案例8.1)一共V1-V19 19个变量,分别代表了年份、全国人口(万人)、农林牧渔业总产值(亿元)、工业总产值(亿元)、国内生产总值(亿元)、全社会投资总额(亿元)、货物周转量(亿吨千米)、社会消费品零售总额(亿元)、进出口贸易总额(亿元)、原煤(亿元)、发电量(亿千瓦时)、原油(万吨)、钢(万吨)、汽车(万辆)、布(亿米)、糖(万吨)、粮食(万吨)、棉花(万吨)、油料(万吨)。使用主成分分析对这些指标提取主成分并写出提取主成分与这些指标之间的表达式。

correlate V2-V19  #对18个变量进行相关性分析

        结果如图所示。这里得到的是所有变量之间的方差-协方差矩阵。我们可以发现很多变脸之间的相关关系是非常强的甚至有的超过了90%,这说明变量之间存在着相当数量的信息重叠。我们进行主成分分析把众多的初始变量整合成少数几个相互之间无关的主成分变量是非常必要的。

pca V2-V19 #对18个变量进行主成分分析

        结果如图所示,(Component)表示的是系统提取的主成分名称,可以发现,我们stata总共提取了18个主成分。Eigenvalue列表示的是系统提取的主成分特征值,特征值的大小意味着该主成分的解释能力,特征值越大解释能力越强,可以发现Stata提取的18个主成分中只有前7个是有效的。Proportion列表示的是系统提取的主成分的方差贡献率,方差贡献率也便是主成分的解释能力,可以发现第一个主成分的方差贡献率是0.8023,表示该主成分解释了所有变量的80.23%的信息。

        这个图站试的是主成分特征向量矩阵,以表明各个主成分在各个变量上的载荷,从而可以的出主成分的表达式。在表达式中各个变量已经不是原始变量而是标准变量。其中第一个 特征值的主成分表达式是:

        comp1 = 0.1377*V2+0.2605*V3+···+0.1913*V19

        在第一主成分中,除了粮食变量(V17)以外的变量系数比较大,可以看成是

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值