- 问题背景与数据描述
自我国今年提出《国民经济和社会发展第十四个五年规划》后,如何坚持创新驱动发展、全面塑造发展新优势,以及如何加快各省份发展现代产业体系、巩固壮大实体经济根基成为全社会关注的热点。首先,我们应该将各省份的经济发展指标作为切入点,深度剖析每个经济指标对各省份的经济影响,研究各经济指标对各省份的影响程度,总结因经济指标的不同而造成的各省份经济不同的原因。最后找出先行经济的不足,做出科学的决策。
我们通过分析各省份的社会经济的12项统计指标来研究各省份的经济运行状况。根据CSMAR数据库历年对各省份的统计资料,我们提取1200条以上有关数据进行汇总,汇总数据见附录1。
统计方法与SAS实现
为了研究各省份的经济情况,我们将采用描述性统计、主成分分析、因子分析等方法进行多角度、全方面的分析。
数据获取和数据预处理
- 为了便于分析,我们将用以下变量来表示各经济指标:
经济指标 | 变量 |
地区生产总值(亿元) | X1 |
人均GDP(元) | X2 |
房屋平均销售价格(元/平方米) | X3 |
进出口总额(万美元) | X4 |
建筑业总产值(万元) | X5 |
固定资产投资总额(亿元) | X6 |
社会消费品零售总额(亿元) | X7 |
职工平均工资(元) | X8 |
旅游人数(万人次) | X9 |
表 1 经济指标命名
- 描述性统计分析
为了对数据的基本情况有一个初步的了解,我们首先进行单变量分析。利用means过程计算各变量的描述性统计量,包括均值、标准差、最大最小值、极差、变异系数和偏度(保留两位小数)。结果如下:
均值 | 标准差 | 最大值 | 最小值 | 极差 | 变异系数 | 偏度 | |
x1 | 27327.1 | 22186.91 | 89705.23 | 1310.92 | 88394.31 | 81.19 | 1.55 |
x2 | 60696.77 | 27594.6 | 129059.47 | 28407.84 | 100651.63 | 45.46 | 1.39 |
x3 | 8536.35 | 5891.87 | 32140 | 4544 | 27596 | 69.02 | 2.91 |
x4 | 13248917 | 23450968.62 | 111365891.5 | 45025.2 | 111320866.3 | 177 | 3.04 |
x5 | 69014051.29 | 67099387.15 | 279567104.8 | 1479178.6 | 278087926.2 | 97.23 | 1.93 |
x6 | 20516.71 | 14655.78 | 55202.72 | 1975.6 | 53227.12 | 71.43 | 0.78 |
x7 | 11738.88 | 9583.92 | 38200.1 | 523.3 | 37676.8 | 81.64 | 1.31 |
x8 | 73352.03 | 18656.05 | 131700 | 55495 | 76205 | 25.43 | 2.24 |
x9 | 373.73 | 644.85 | 3654.52 | 6.53 | 3647.99 | 172.55 | 4.65 |
表 2 means过程
根据表2的结果,可以得出以下结论:
- 除了x2(人均GDP)和x8(职工平均工资)的变异系数不是很大外,其他各变量的变异系数都大于50,其中x4(进出口总额)、x9(旅游人数)的变异系数都大于100,这说明全国31个省份在以上几个方面存在很大的差异,从极差可以大致看出各省份之间的差别。
- x8(职工平均工资)的变异系数在8个指标的变异系数中是最小的,这说明虽然职工的工资跟城市的发展水平有关,但其增长的幅度相较于各省份的经济发展是不相应的,职工并没有在城市发展的过程中享受到更多的福利。城市发展了,职工并没有享受到更多的福利。
进一步可以考虑8个变量之间的相关系数,结果如下:
图 1 变量之间的相关系数矩阵
从上表中我们发现有的相关系数较小,在0.1以下;有的变量之间相关系数较大,达到0.8以上,且显著性检验的P值很小。这表明有的变量之间存在较强的相关性,它们反映的信息有所重叠,因此考虑降低维数,用较少的变量来考虑各省份的情况。
- 因子分析
采用因子分析的方法实现对数据的降维处理,将9个经济指标综合为几个因子来进行研究。首先用fator过程计算得到数据相关矩阵的特征值如表3所示:
特征值 | 差分 | 比例 | 累积 | |
1 | 4.02654448 | 1.79299082 | 0.4474 | 0.4474 |
2 | 2.23355365 | 0.88059942 | 0.2482 | 0.6956 |
3 | 1.35295423 | 0.52681974 | 0.1503 | 0.8459 |
4 | 0.82613449 | 0.64978288 | 0.0918 | 0.9377 |
5 | 0.17635162 | 0.02499277 | 0.0196 | 0.9573 |
6 | 0.15135885 | 0.03995335 | 0.0168 | 0.9741 |
7 | 0.1114055 | 0.03327899 | 0.0124 | 0.9865 |
8 | 0.07812651 | 0.03455584 | 0.0087 | 0.9952 |
9 | 0.04357067 | 0.0048 | 1 |
表 3 相关矩阵的特征值
从表中看出,相关矩阵的前三个特征值分别为4.02654448、2.23355365和1.35295432,对应三个公共因子的累积方差贡献率已达到0.8459,因此3个公共因子所代表的信息已经能够较为充分地反映原始变量的信息,接下来指定两个公共因子来进行因子分析。
利用主成分法,factor过程计算了三因子模型的因子载荷矩阵、公共因子解释的方差、变量的共同度,结果如下:
Factor1 | Factor2 | Factor3 | |
x1 | 0.819 | 0.29313 | -0.3995 |
x2 | 0.7694 | -0.51232 | 0.13104 |
x3 | 0.57736 | -0.75166 | 0.1811 |
x4 | 0.90724 | 0.17848 | -0.22083 |
x5 | 0.72191 | 0.17916 | -0.2152 |
x6 | 0.36657 | 0.54779 | 0.70963 |
x7 | 0.47731 | 0.64955 | 0.534 |
x8 | 0.50152 | -0.70264 | 0.38407 |
x9 | 0.68738 | 0.20131 | -0.33477 |
表 4 因子载荷矩阵
Factor1 | Factor2 | Factor3 |
4.0265445 | 2.2335537 | 1.3529542 |
表 5 公共因子解释的方差
x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 |
0.91628855 | 0.87162105 | 0.93112834 | 0.90370537 | 0.5995584 | 0.93801823 | 0.93489847 | 0.89274058 | 0.62509339 |
表 6 变量的共同度
从表6中得出前8个变量的共同度都在0.8以上,虽然第9个的共同度小于0.8,我们仍认为该因子模型已经能够较好的反映原始变量的信息。
但是在表4的因子载荷矩阵中,第二个和第三个公共因子的因子载荷很多小于0.4,且出现较多的负值。这样难对公共因子做出合理的解释,因此接下来对因子载荷矩阵进行因子旋转,计算因子得分,结果如下:
旋转因子模式 | |||
Factor1 | Factor2 | Factor3 | |
x1 | 0.9498 | 0.0537 | 0.10624 |
x2 | 0.39768 | 0.84356 | 0.04337 |
x3 | 0.14864 | 0.9469 | -0.11145 |
x4 | 0.89299 | 0.25325 | 0.20526 |
x5 | 0.74212 | 0.15843 | 0.15401 |
x6 | 0.07725 | 0.02586 | 0.96508 |
x7 | 0.28774 | -0.0592 | 0.92119 |
x8 | -0.00478 | 0.94356 | 0.04918 |
x9 | 0.78396 | 0.07981 | 0.0643 |
表 7 旋转后的因子载荷矩阵
从表7可以看出,此时三个公共因子的意义已经比较明显:x1、x4、x5、x9在因子factor1上都有很大的正载荷,在x2、x7上有中等的正载荷,其余变量只有只有小的载荷,因而该因子可称为省份的发展潜力因子。x2、x3、x8在因子factor2上有大的正载荷,其余变量的载荷都基本较小,该因子可称为各省份的工资水平因子。x6、x7在因子factor3上有很大的正载荷,在其与变量上的载荷较小,该因子可称为各省份的交通投入因子。
利用因子模型,可以计算出每个地区在三个公共因子的得分,得分数据见附录一表scoreout,接下来利用sort过程对数据集scoreout按照公因子进行排序。得到按照发展潜力、政策影响、投资力度输出的排序,如下表所示:
地区 | 发展潜力 | 地区 | 政策影响 | 地区 | 投资力度 |
广东 | 3.68021 | 北京 | 3.54377 | 贵州 | 2.6389 |
江苏 | 2.12408 | 上海 | 2.9566 | 福建 | 2.21487 |
浙江 | 1.44592 | 天津 | 1.64276 | 江苏 | 1.74109 |
山东 | 1.32169 | 西藏 | 0.63077 | 辽宁 | 1.35015 |
河南 | 0.41723 | 浙江 | 0.58657 | 青海 | 0.95054 |
湖北 | 0.40014 | 江苏 | 0.31351 | 西藏 | 0.95037 |
四川 | 0.23524 | 福建 | 0.19077 | 新疆 | 0.85 |
湖南 | 0.17846 | 海南 | 0.09423 | 江西 | 0.78466 |
福建 | 0.06678 | 青海 | -0.09306 | 上海 | 0.36274 |
安徽 | 0.05127 | 广东 | -0.11361 | 广东 | 0.32849 |
上海 | 0.02271 | 重庆 | -0.1205 | 浙江 | 0.08581 |
河北 | 0.00847 | 陕西 | -0.29482 | 吉林 | -0.09261 |
广西 | -0.02593 | 湖北 | -0.30083 | 四川 | -0.10247 |
重庆 | -0.06579 | 内蒙古 | -0.30389 | 陕西 | -0.2005 |
云南 | -0.11871 | 宁夏 | -0.31361 | 宁夏 | -0.23628 |
陕西 | -0.13645 | 贵州 | -0.3463 | 山西 | -0.26852 |
北京 | -0.26982 | 辽宁 | -0.36409 | 河南 | -0.4095 |
内蒙古 | -0.35754 | 新疆 | -0.37132 | 安徽 | -0.4907 |
黑龙江 | -0.37672 | 吉林 | -0.37339 | 云南 | -0.49245 |
江西 | -0.38763 | 山东 | -0.39117 | 湖南 | -0.52091 |
辽宁 | -0.39207 | 四川 | -0.45964 | 海南 | -0.56512 |
天津 | -0.43023 | 河北 | -0.48448 | 湖北 | -0.56755 |
山西 | -0.45747 | 江西 | -0.52636 | 河北 | -0.6094 |
吉林 | -0.51046 | 安徽 | -0.55381 | 天津 | -0.65556 |
甘肃 | -0.56975 | 云南 | -0.57962 | 山东 | -0.72097 |
新疆 | -0.76869 | 山西 | -0.58535 | 黑龙江 | -0.76558 |
海南 | -0.77922 | 湖南 | -0.60122 | 重庆 | -0.94926 |
宁夏 | -0.77992 | 广西 | -0.63915 | 内蒙古 | -1.06383 |
贵州 | -1.04238 | 甘肃 | -0.65294 | 北京 | -1.16104 |
青海 | -1.1052 | 黑龙江 | -0.65943 | 甘肃 | -1.17669 |
西藏 | -1.37824 | 河南 | -0.83037 | 广西 | -1.2087 |
表 8 按不同因子排序
从表8我们可以得出以下结论:
- 广东、江苏、浙江、山东在发展潜力上名列前茅,说明这三个省份具有很大的发展潜力。据有关报道,在2021年的百强区排名中,江苏有22个、广东有20个、浙江有12个、山东有10个城市登榜。在全国前十强中,广东占据了8个。广东有17个在前50名,江苏有10个在前50名。贵州、青海、西藏在发展潜力上排名靠后,说明三个省还没有很好的发展机遇。
- 北京、上海、天津在政策影响上位居前三位,这三个省份不仅是我国的直辖区、一流城市,还曾是历代朝代的经济重都,贸易历史悠久。国际化水平较高,在建国之初就得到优先发展。紧随其后的西藏有着很好的政策福利,在西藏的就业人员平均工资水平高,有高原补贴养老金,且多次上调工资水平。
- 贵州、福建、江苏在投资力度上位居前三,可以看出各省份在经济发展上所下的力度。与福建、江苏两省投资实现产业升级不同的是,贵州是发展条件较落后的地区,并不像沿海发达城市有技术、人才和资本大规模的发展新经济,实现产业升级,它的出路只有立足于本省的资源优势,投资发展相关产业。北京投资力度小是因为已经实现了全面发展,不用过多的投入实现产业转型。
*表1 means过程*; proc means data=work.sasdata maxdec=2 mean std max min range cv skew; var x1-x9; run; *图2变量之间的相关系数矩阵*; proc corr data=work.sasdata; var x1-x9; run; *表3 相关矩阵的特征值*; proc factor data=sasdata; var x1-x9; run; *表 4\5\6代码*; proc factor data=sasdata n=3; var x1-x9; run; *表7旋转后的因子载荷矩阵*; proc factor data=sasdata n=3 rotate=varimax score out=scoreout; var x1-x9; run; *表8 各省份按不同因子排序* proc sort data=scoreout out=f1; by descending factor1; run; proc sort data=scoreout out=f2; by descending factor2; run; proc sort data=scoreout out=f3; by descending factor3; run; proc reg data=chap7.house; /*调用REG过程*/ model Y=X1-X9/selection=stepwise slstay=0.1 slentry=0.15; /*定义分析模型,并指定逐步回归法进行模型选择*/ run;