各省市经济情况分析——基于SAS软件

韩买买

已于 2022-09-24 13:01:08 修改

阅读量2.3k

点赞数 3

分类专栏： SAS 主成分分析因子分析

于 2022-06-02 17:17:46 首次发布

本文链接：https://blog.csdn.net/qq_54412734/article/details/125104030

版权

大数据

SAS 同时被 3 个专栏收录

1 篇文章

订阅专栏

主成分分析

1 篇文章

订阅专栏

因子分析

1 篇文章

订阅专栏

通过对全国31个省份的地区生产总值、人均GDP等12项经济指标进行统计分析，发现各省份间存在显著差异。主成分分析与因子分析揭示了发展潜力、工资水平和交通投入三个关键因子。广东、江苏、浙江、山东发展潜力领先，北京、上海、天津政策影响显著，贵州、福建、江苏投资力度大。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题背景与数据描述

自我国今年提出《国民经济和社会发展第十四个五年规划》后，如何坚持创新驱动发展、全面塑造发展新优势，以及如何加快各省份发展现代产业体系、巩固壮大实体经济根基成为全社会关注的热点。首先，我们应该将各省份的经济发展指标作为切入点，深度剖析每个经济指标对各省份的经济影响，研究各经济指标对各省份的影响程度，总结因经济指标的不同而造成的各省份经济不同的原因。最后找出先行经济的不足，做出科学的决策。

我们通过分析各省份的社会经济的12项统计指标来研究各省份的经济运行状况。根据CSMAR数据库历年对各省份的统计资料，我们提取1200条以上有关数据进行汇总，汇总数据见附录1。

统计方法与SAS实现

为了研究各省份的经济情况，我们将采用描述性统计、主成分分析、因子分析等方法进行多角度、全方面的分析。

数据获取和数据预处理

为了便于分析，我们将用以下变量来表示各经济指标:

经济指标	变量
地区生产总值（亿元）	X1
人均GDP（元）	X2
房屋平均销售价格（元/平方米）	X3
进出口总额（万美元）	X4
建筑业总产值（万元）	X5
固定资产投资总额（亿元）	X6
社会消费品零售总额（亿元）	X7
职工平均工资（元）	X8
旅游人数（万人次）	X9

表 1 经济指标命名

描述性统计分析

为了对数据的基本情况有一个初步的了解，我们首先进行单变量分析。利用means过程计算各变量的描述性统计量，包括均值、标准差、最大最小值、极差、变异系数和偏度（保留两位小数）。结果如下：

变量	均值	标准差	最大值	最小值	极差	变异系数	偏度
x1	27327.1	22186.91	89705.23	1310.92	88394.31	81.19	1.55
x2	60696.77	27594.6	129059.47	28407.84	100651.63	45.46	1.39
x3	8536.35	5891.87	32140	4544	27596	69.02	2.91
x4	13248917	23450968.62	111365891.5	45025.2	111320866.3	177	3.04
x5	69014051.29	67099387.15	279567104.8	1479178.6	278087926.2	97.23	1.93
x6	20516.71	14655.78	55202.72	1975.6	53227.12	71.43	0.78
x7	11738.88	9583.92	38200.1	523.3	37676.8	81.64	1.31
x8	73352.03	18656.05	131700	55495	76205	25.43	2.24
x9	373.73	644.85	3654.52	6.53	3647.99	172.55	4.65

表 2 means过程

根据表2的结果，可以得出以下结论：

除了x2（人均GDP）和x8（职工平均工资）的变异系数不是很大外，其他各变量的变异系数都大于50，其中x4（进出口总额）、x9（旅游人数）的变异系数都大于100，这说明全国31个省份在以上几个方面存在很大的差异，从极差可以大致看出各省份之间的差别。
x8（职工平均工资）的变异系数在8个指标的变异系数中是最小的，这说明虽然职工的工资跟城市的发展水平有关，但其增长的幅度相较于各省份的经济发展是不相应的，职工并没有在城市发展的过程中享受到更多的福利。城市发展了，职工并没有享受到更多的福利。

进一步可以考虑8个变量之间的相关系数，结果如下：

图 1 变量之间的相关系数矩阵

从上表中我们发现有的相关系数较小，在0.1以下；有的变量之间相关系数较大，达到0.8以上，且显著性检验的P值很小。这表明有的变量之间存在较强的相关性，它们反映的信息有所重叠，因此考虑降低维数，用较少的变量来考虑各省份的情况。

因子分析

采用因子分析的方法实现对数据的降维处理，将9个经济指标综合为几个因子来进行研究。首先用fator过程计算得到数据相关矩阵的特征值如表3所示：

相关矩阵的特征值: 总计 = 9 平均值 = 1
	特征值	差分	比例	累积
1	4.02654448	1.79299082	0.4474	0.4474
2	2.23355365	0.88059942	0.2482	0.6956
3	1.35295423	0.52681974	0.1503	0.8459
4	0.82613449	0.64978288	0.0918	0.9377
5	0.17635162	0.02499277	0.0196	0.9573
6	0.15135885	0.03995335	0.0168	0.9741
7	0.1114055	0.03327899	0.0124	0.9865
8	0.07812651	0.03455584	0.0087	0.9952
9	0.04357067		0.0048	1

表 3 相关矩阵的特征值

从表中看出，相关矩阵的前三个特征值分别为4.02654448、2.23355365和1.35295432，对应三个公共因子的累积方差贡献率已达到0.8459，因此3个公共因子所代表的信息已经能够较为充分地反映原始变量的信息，接下来指定两个公共因子来进行因子分析。

利用主成分法，factor过程计算了三因子模型的因子载荷矩阵、公共因子解释的方差、变量的共同度，结果如下：

因子模式
	Factor1	Factor2	Factor3
x1	0.819	0.29313	-0.3995
x2	0.7694	-0.51232	0.13104
x3	0.57736	-0.75166	0.1811
x4	0.90724	0.17848	-0.22083
x5	0.72191	0.17916	-0.2152
x6	0.36657	0.54779	0.70963
x7	0.47731	0.64955	0.534
x8	0.50152	-0.70264	0.38407
x9	0.68738	0.20131	-0.33477

表 4 因子载荷矩阵

每个因子已解释方差
Factor1	Factor2	Factor3
4.0265445	2.2335537	1.3529542

表 5 公共因子解释的方差

最终的公因子方差估计: 总计 = 7.613052
x1	x2	x3	x4	x5	x6	x7	x8	x9
0.91628855	0.87162105	0.93112834	0.90370537	0.5995584	0.93801823	0.93489847	0.89274058	0.62509339

表 6 变量的共同度

从表6中得出前8个变量的共同度都在0.8以上，虽然第9个的共同度小于0.8，我们仍认为该因子模型已经能够较好的反映原始变量的信息。

但是在表4的因子载荷矩阵中，第二个和第三个公共因子的因子载荷很多小于0.4，且出现较多的负值。这样难对公共因子做出合理的解释，因此接下来对因子载荷矩阵进行因子旋转，计算因子得分，结果如下：

旋转因子模式
	Factor1	Factor2	Factor3
x1	0.9498	0.0537	0.10624
x2	0.39768	0.84356	0.04337
x3	0.14864	0.9469	-0.11145
x4	0.89299	0.25325	0.20526
x5	0.74212	0.15843	0.15401
x6	0.07725	0.02586	0.96508
x7	0.28774	-0.0592	0.92119
x8	-0.00478	0.94356	0.04918
x9	0.78396	0.07981	0.0643

表 7 旋转后的因子载荷矩阵

从表7可以看出，此时三个公共因子的意义已经比较明显：x1、x4、x5、x9在因子factor1上都有很大的正载荷，在x2、x7上有中等的正载荷，其余变量只有只有小的载荷，因而该因子可称为省份的发展潜力因子。x2、x3、x8在因子factor2上有大的正载荷，其余变量的载荷都基本较小，该因子可称为各省份的工资水平因子。x6、x7在因子factor3上有很大的正载荷，在其与变量上的载荷较小，该因子可称为各省份的交通投入因子。

利用因子模型，可以计算出每个地区在三个公共因子的得分，得分数据见附录一表scoreout，接下来利用sort过程对数据集scoreout按照公因子进行排序。得到按照发展潜力、政策影响、投资力度输出的排序，如下表所示：

地区	发展潜力	地区	政策影响	地区	投资力度
广东	3.68021	北京	3.54377	贵州	2.6389
江苏	2.12408	上海	2.9566	福建	2.21487
浙江	1.44592	天津	1.64276	江苏	1.74109
山东	1.32169	西藏	0.63077	辽宁	1.35015
河南	0.41723	浙江	0.58657	青海	0.95054
湖北	0.40014	江苏	0.31351	西藏	0.95037
四川	0.23524	福建	0.19077	新疆	0.85
湖南	0.17846	海南	0.09423	江西	0.78466
福建	0.06678	青海	-0.09306	上海	0.36274
安徽	0.05127	广东	-0.11361	广东	0.32849
上海	0.02271	重庆	-0.1205	浙江	0.08581
河北	0.00847	陕西	-0.29482	吉林	-0.09261
广西	-0.02593	湖北	-0.30083	四川	-0.10247
重庆	-0.06579	内蒙古	-0.30389	陕西	-0.2005
云南	-0.11871	宁夏	-0.31361	宁夏	-0.23628
陕西	-0.13645	贵州	-0.3463	山西	-0.26852
北京	-0.26982	辽宁	-0.36409	河南	-0.4095
内蒙古	-0.35754	新疆	-0.37132	安徽	-0.4907
黑龙江	-0.37672	吉林	-0.37339	云南	-0.49245
江西	-0.38763	山东	-0.39117	湖南	-0.52091
辽宁	-0.39207	四川	-0.45964	海南	-0.56512
天津	-0.43023	河北	-0.48448	湖北	-0.56755
山西	-0.45747	江西	-0.52636	河北	-0.6094
吉林	-0.51046	安徽	-0.55381	天津	-0.65556
甘肃	-0.56975	云南	-0.57962	山东	-0.72097
新疆	-0.76869	山西	-0.58535	黑龙江	-0.76558
海南	-0.77922	湖南	-0.60122	重庆	-0.94926
宁夏	-0.77992	广西	-0.63915	内蒙古	-1.06383
贵州	-1.04238	甘肃	-0.65294	北京	-1.16104
青海	-1.1052	黑龙江	-0.65943	甘肃	-1.17669
西藏	-1.37824	河南	-0.83037	广西	-1.2087

表 8 按不同因子排序

从表8我们可以得出以下结论：

广东、江苏、浙江、山东在发展潜力上名列前茅，说明这三个省份具有很大的发展潜力。据有关报道，在2021年的百强区排名中，江苏有22个、广东有20个、浙江有12个、山东有10个城市登榜。在全国前十强中，广东占据了8个。广东有17个在前50名，江苏有10个在前50名。贵州、青海、西藏在发展潜力上排名靠后，说明三个省还没有很好的发展机遇。
北京、上海、天津在政策影响上位居前三位，这三个省份不仅是我国的直辖区、一流城市，还曾是历代朝代的经济重都，贸易历史悠久。国际化水平较高，在建国之初就得到优先发展。紧随其后的西藏有着很好的政策福利，在西藏的就业人员平均工资水平高，有高原补贴养老金，且多次上调工资水平。

贵州、福建、江苏在投资力度上位居前三，可以看出各省份在经济发展上所下的力度。与福建、江苏两省投资实现产业升级不同的是，贵州是发展条件较落后的地区，并不像沿海发达城市有技术、人才和资本大规模的发展新经济，实现产业升级，它的出路只有立足于本省的资源优势，投资发展相关产业。北京投资力度小是因为已经实现了全面发展，不用过多的投入实现产业转型。

*表1 means过程*;
proc means data=work.sasdata maxdec=2 mean std max min range cv skew;
var x1-x9;
run;
*图2变量之间的相关系数矩阵*;
proc corr data=work.sasdata;
var x1-x9;
run;
*表3 相关矩阵的特征值*;
proc factor data=sasdata;
var x1-x9;
run;
*表 4\5\6代码*;
proc factor data=sasdata n=3;
var x1-x9;
run;
*表7旋转后的因子载荷矩阵*;
proc factor data=sasdata n=3 rotate=varimax score out=scoreout;
var x1-x9;
run;
*表8 各省份按不同因子排序*
proc sort data=scoreout out=f1;
by descending factor1;
run;
proc sort data=scoreout out=f2;
by descending factor2;
run;
proc sort data=scoreout out=f3;
by descending factor3;
run;
proc reg data=chap7.house;   /*调用REG过程*/
	model Y=X1-X9/selection=stepwise slstay=0.1 slentry=0.15;
		/*定义分析模型，并指定逐步回归法进行模型选择*/
run;