统计学|SPSS|主成分回归实例-发电站需求模型

前言:

由于spss并不能直接得到最终的主成分回归模型,以下以“发电站需求模型”一题为实例,进行利用spss进行的主成分回归

案例

题目

影响电的需求量的指标有:

(1)钢的产量x1; (2)生铁产量x2; (3)钢材产量x3; (4)有色金属产量x4;

(5)原煤产量x5; (6)水泥产量x6; (7)机械工业总产值x7; (8)化肥产量x8;

(9)硫酸产量x9; (10)烧碱产量x10; (11)棉纱产量x11

共11个指标。收集了23年的指标值,建立发电站需求模型。
数据如下:23年指标值,X1~X11为自变量,Y为电量需求

X1X2X3X4X5X6X7X8X9X10X11Y
475648.37777202832.27.310.31.211.4326.210.7
62.611059.613743350033.29.611.82.281.932817.7
681256012269380055.612.853.35.391.927.626.8
35.357.625.64582260024.46.7610.65.361.541124.2
31.320.623.53891129617.95.0813.75.611.3310.220.1
35.218.226.55061105224.85.5416.97.511.4714.219.3
45.323.738.57686100137.87.14348.641.5720.422.9
49.528.2509526113478.811.260.813.871.9226.628.9
59.730.569.2105151545101.615.89103.920.052.8633.239.1
47.819.652.77580128774.910.8688.115.752.4123.939.1
17.78.117.2233399840.25.131.36.691.5517.626.8
3610.437.22099134773.313.1447.813.631.5727.237.2
6229.357.7105891953138.625.5490.918.862.6336.354.1
9777.978.313004252224731.31137.328.51441.577.4
95.297.474.612593273327028.7915428.934.2440.284
118.4102.258.3109362557233.528.03169.128.243.7638.288.4
99.986.5507810244020526.5143.622.173.0731.586.3
151111110.79400308628838.6118929.175.0346.9108
10884.176.984762895262.231.46216.526.364.4638.6103
162.5138.3132116323678358.646.21405.830.426.2352.5119
238.2224202161633794454.855.86542.8507.8356139
292.9274.4251.5187963838519.263.77581.356.689.4962.2156
329287.6259.2213003898551.161.88632.460.2210.866.8164

SPSS操作及分析

1. 相关性分析及主成分/公因子提取

SPSS操作:分析-降维-因子

在这里插入图片描述
选取X1~X11为变量,描述选项勾选项如图所示

在这里插入图片描述

提取项选择如图:
由于进行主成分回归分析,为确保所有数据信息均被提取,在此不进行降维,因子数量与自变量数量一致,提取11个因子
在这里插入图片描述
旋转项:方法选择无,显示勾选荷载图
在这里插入图片描述
得分项:勾选显示因子得分系数矩阵
在这里插入图片描述
选项-勾选系数选择格式
在这里插入图片描述

结果

1. 相关性分析
因子分析需要变量间有相关性,所以首先要进行相关性检验,首先输出的是变量之间的相关系数矩阵。可以直观看到变量间是存在一定的相关性,如 X1 和 X3 相关性较大。

(1)相关性矩阵在这里插入图片描述
(2)KMO和巴特利特检验

在这里插入图片描述
KMO统计量越接近1,变量间的相关性越强,偏相关性越弱,分析效果越好,一般KMO统计量小于0.3不适合做主成分分析,本次分析KMO=0.758,所以本例适合做主成分分析。
同时,巴特利特球形度检验统计量小于0.001,是显著的。
【备注】
a. KMO统计量判断标准
b. 巴特利特球形度检验判断标准

2.提取主成分和公因子

在本例中,公因子方差数据,从表中最后一列可以看出所有原始变量均被提取信息。在这里插入图片描述

接下来输出主成分结果,表中第一列为11个成分,第二列总计项为对应的特征值,表示所解释的方差的大小,第三列为对应的成分所包含的方差占总方差的百分比,第四列为累计的百分比。
在这里插入图片描述
在本例中,成分1、成分2、成分3、成分4、成分5、成分6、成分7、成分8、成分9、成分10、成分11的特征值分别为9.869、0.603、0.228、0.185、0.050、0.260、0.014、0.011、0.009、0.005、0.001,合计能够解释100%的方差

接下来输出成分得分系数矩阵:
在这里插入图片描述

该因子载荷矩阵并不是主成分的特征向量,即不是主成分的系数。为了获取主成分系数,需要根据该矩阵除以特征根的平方根即可得到主成分表达式,

excel 操作

在excel中将spss中得到的成分得分系数矩阵分别除以对应特征根的平方根得到以下主成分得分系数矩阵:

变量1234567891011
X10.31441-0.052140.00318-0.281040.01261-0.42351-0.23425-0.00395-0.317870.610260.33402
X20.302650.294490.03709-0.438830.16076-0.36564-0.25747-0.253230.31081-0.32925-0.36438
X30.31018-0.04688-0.17581-0.36586-0.49298-0.022230.58310-0.01771-0.02978-0.278100.27344
X40.278310.36951-0.791060.188550.205700.22859-0.07311-0.04499-0.147350.012040.02992
X50.251900.720290.492110.143530.030630.193560.213830.137750.061500.164910.14451
X60.31096-0.192380.189840.208870.28023-0.02281-0.277050.12172-0.12975-0.565510.52856
X70.31153-0.138800.218860.269240.002460.027250.17939-0.51324-0.55942-0.04301-0.39005
X80.30764-0.242090.10351-0.25121-0.142150.70716-0.32651-0.224470.247900.181660.03465
X90.30340-0.33688-0.033070.143190.52358-0.093580.47170-0.012710.460880.23390-0.01388
X100.31451-0.147590.02362-0.132970.010990.10184-0.024120.76355-0.21809-0.02754-0.46760
X110.30508-0.05344-0.058830.56659-0.56101-0.27617-0.221680.052460.353210.06622-0.08691

2. 主成分分析

SPSS操作

(1)数据描述:数据标准化
SPSS操作: 分析-描述统计-描述
在这里插入图片描述
选取X1~X11和Y,得到描述性统计结果,得到标准化数据,并另存为变量
在这里插入图片描述
得到以下结果:得到这组数据的描述统计结果
在这里插入图片描述
在这里插入图片描述
(2)计算主成分对应数据
根据主成分得分矩阵,将标准化之后的数据代入,计算得出主成分对应数据(在excel中完成),并将F1~F11的数据黏贴到spss的数据集之中:

F1F2F3F4F5F6F7F8F9F10F11
-2.24542.14220.0343-0.61220.1745-0.0033-0.1114-0.07520.11060.0529-0.0676
-1.07792.1422-0.4131-0.0540-0.13110.0431-0.04050.03190.00760.0232-0.0086
-0.86802.17700.0343-0.0858-0.0080-0.07070.0684-0.04930.07400.0027-0.0127
-2.64970.70930.7345-0.61220.27920.13180.17190.0643-0.01960.0339-0.0022
-3.2395-0.35030.1954-0.64430.17450.06160.0369-0.0088-0.1378-0.01120.0128
-3.0569-0.5181-0.1218-0.48180.1156-0.0033-0.0256-0.0046-0.0960-0.0004-0.0109
-2.5731-0.4458-0.5840-0.2667-0.0279-0.0186-0.1114-0.0623-0.07270.00910.0192
-1.9052-0.4651-0.77060.0518-0.02880.0195-0.0585-0.07520.0134-0.02790.0414
-1.0730-0.4315-0.71090.2846-0.14180.11960.14520.08070.11060.0827-0.0128
-1.9373-0.6228-0.3752-0.1167-0.01200.15930.10200.09370.05200.05290.0213
-3.2664-0.81530.3257-0.3241-0.0902-0.0077-0.12080.09030.0825-0.0985-0.0676
-2.4880-0.90150.56950.0790-0.3126-0.20440.1198-0.05790.20400.0198-0.0013
-0.7967-0.2143-0.36430.7214-0.12270.10050.1040-0.1369-0.15420.0546-0.0500
0.6985-0.0092-0.32940.76350.2189-0.01540.08910.0232-0.0718-0.0750-0.0001
0.81380.1345-0.13240.61070.36060.0100-0.01330.12480.0786-0.17950.0097
0.5415-0.02250.06210.37440.3923-0.1535-0.2025-0.06170.10200.1302-0.0220
-0.2746-0.12210.49710.14190.3022-0.1199-0.1418-0.1596-0.02570.03840.0073
1.6222-0.08360.60540.4070-0.2159-0.37970.12650.0964-0.14580.04210.0256
0.7021-0.16960.67260.34680.06890.1268-0.00990.1327-0.00660.00800.0305
3.01450.05290.75170.3448-0.39980.3805-0.19000.0126-0.06580.0009-0.0093
5.3987-0.15170.1882-0.26320.02760.21300.0676-0.20740.1201-0.00740.0394
6.9323-0.2326-0.1578-0.5330-0.0357-0.11660.1353-0.1262-0.0377-0.1051-0.0360
7.7282-0.2260-0.5214-0.58190.0140-0.1035-0.10250.2157-0.00560.0860-0.0059

在这里插入图片描述

(3)线性分析
1)用SPSS做出𝑦与𝐹1~𝐹11 的散点图
SPSS操作:图形-旧对话框-散点图/点图-矩阵散点图
在这里插入图片描述
在这里插入图片描述
将F1~F11和ZY选为矩阵变量
在这里插入图片描述

输出:

用SPSS做出ZY与𝐹1~𝐹11 的正态Q-Q图
SPSS操作:
在这里插入图片描述

输出:各正态Q-Q图,总共12个图,此处略,仅展示缩略图
在这里插入图片描述

可以看出数据基本符合正态分布

2)线性回归
用SPSS中“分析-回归-线性”,设置ZY(Y标准化后)为因变量,F1~F11为自变量,选择步进,进行多元线性回归
在这里插入图片描述
在这里插入图片描述
输出
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(a)
从系数表中,多元线性回归F6,F8,F9,F10和F11系数被剔除,F1,F2,F3,F4,F5,F7系数均显著。从共线性统计可以看出,没有共线现象。
根据系数表可写出估计的回归方程:
Z Y = 0.008 + 0.300 ∗ F 1 − 0.217 F 2 + 0.392 F 3 + 0.267 F 4 + 0.370 F 5 − 0.390 F 7 ZY=0.008+0.300*F_1-0.217F_2+0.392F_3+0.267F_4+0.370F_5−0.390F_7 ZY=0.008+0.300F10.217F2+0.392F3+0.267F4+0.370F50.390F7

Y = − 10.594 + 0.073 X 1 + 0.050 X 2 − 0.333 X 3 − 0.001 X 4 + 0.004 X 5 + 0.137 X 6 + 0.545 X 7 + 0.048 X 8 + 0.570 X 9 + 2.034 X 10 + 0.340 X 11 Y=−10.594+0.073X_1+0.050X_2−0.333X_3−0.001X_4+0.004X_5+0.137X_6+0.545X_7+0.048X_8+0.570X_9+2.034X_{10}+0.340X_{11} Y=10.594+0.073X1+0.050X20.333X30.001X4+0.004X5+0.137X6+0.545X7+0.048X8+0.570X9+2.034X10+0.340X11

(b)模型检验-残差分析

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

写在最后

以上就是大致的过程,对数据的分析过程也许有所疏漏或者错误,望能指出,欢迎评论区交流~
后续也许能把计算的excel或者整理一份python代码,因为spss确实不算特别方便。

  • 13
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值