第8章 Stata主成分分析与因子分析

最新推荐文章于 2024-08-06 10:10:07 发布

查尔斯-狩乃

最新推荐文章于 2024-08-06 10:10:07 发布

阅读量4.9w

点赞数 79

分类专栏： Stata数据分析文章标签：数据分析 statistics

本文链接：https://blog.csdn.net/qq_45112156/article/details/118223324

版权

本文介绍了在数据统计分析中，面对变量多且相关性强的情况时，如何运用主成分分析与因子分析来简化变量并保留信息。主成分分析通过整合初始变量为少量主成分，因子分析则更深入地研究变量间的关系。文章详细讨论了主成因子法、主因子法、迭代公因子方差的主因子法和最大似然因子法，并提供了实例分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在进行数据统计分析时，还往往会遇见变量特别多的情况，而且很多时候这些变量之间还存在着很强的相关关系或者说变量之间存在着很强的信息重叠，如果我们直接对数据进行分析，一方面会带来工作量的无畏的加大，另一方面还会出现一些模型应用的错误，于是主成分分析与因子分析应运而生。这两种分析方法的基本思想都是在不损失大量信息的前提下，利用较少的独立变量来替代原来的变量进行进一步的分析。

8.1主成分分析

基本思想是将众多的初始变量整合成少数几个互相无关的主成分变量，而这些新变量尽可能地包含了初始变量的全部信息，然后利用这些新的变量来代替以前的变量。

数据（案例8.1）一共V1-V19 19个变量，分别代表了年份、全国人口（万人）、农林牧渔业总产值（亿元）、工业总产值（亿元）、国内生产总值（亿元）、全社会投资总额（亿元）、货物周转量（亿吨千米）、社会消费品零售总额（亿元）、进出口贸易总额（亿元）、原煤（亿元）、发电量（亿千瓦时）、原油（万吨）、钢（万吨）、汽车（万辆）、布（亿米）、糖（万吨）、粮食（万吨）、棉花（万吨）、油料（万吨）。使用主成分分析对这些指标提取主成分并写出提取主成分与这些指标之间的表达式。

correlate V2-V19  #对18个变量进行相关性分析

结果如图所示。这里得到的是所有变量之间的方差-协方差矩阵。我们可以发现很多变脸之间的相关关系是非常强的甚至有的超过了90%，这说明变量之间存在着相当数量的信息重叠。我们进行主成分分析把众多的初始变量整合成少数几个相互之间无关的主成分变量是非常必要的。

pca V2-V19 #对18个变量进行主成分分析

结果如图所示，（Component）表示的是系统提取的主成分名称，可以发现，我们stata总共提取了18个主成分。Eigenvalue列表示的是系统提取的主成分特征值，特征值的大小意味着该主成分的解释能力，特征值越大解释能力越强，可以发现Stata提取的18个主成分中只有前7个是有效的。Proportion列表示的是系统提取的主成分的方差贡献率，方差贡献率也便是主成分的解释能力，可以发现第一个主成分的方差贡献率是0.8023，表示该主成分解释了所有变量的80.23%的信息。