利用SPSS进行多重线性回归分析-基础篇

多重线性回归分析简介:

简单线性回归是只考虑单因素影响的预测模型,事实上,影响因变量的因素往往不止一个,可能会有多个影响因素,也就是研究一个因变量与多个自变量的线性回归问题,就用到多重线性回归分析了

多重线性回归的作用:

1、探索对于因变量具有影响作用的因素;
2、控制混杂因素,评价多个自变量对因变量的独立效应;
3、用已知的自变量来估计和预测因变量的值及其变化。

多重线性回归与多元线性回归

  • 多重线性回归:是指包含两个或两个以上自变量的线性回归模型;
  • 多元线性回归:是指包含两个或两个以上因变量的线性回归模型

多重线性回归模型为:

Y = a + b1X1 + b2X2 + … + bnXn + ε
🎈🎈
Y:因变量 Xn:第n个自变量
a:常数项,是回归直线在纵坐标轴上的截距
bn:第n个偏回归系数
ε:随机误差,即随机因素对因变量所产生的影响

偏回归系数b1指在其他变量保持不变的的情况下,自变量X1每变动一个单位所引起的因变量Y的平均变化,b2…bn依次类推。

多重回归系数——偏回归系数

建立多重线性回归方程的✨✨关键
求出各个偏回归系数bn,同样使用最小二乘法估算相应的偏回归系数。

多重线性回归分析实践

多重线性回归在SPSS中操作与简单线性回归类似,区别🎁🎁在于变量纳入模型的方法以及对输出结果的解读不同

我们继续使用“超市销售数据”进行分析练习:
按照之前说的步骤🎈

1、根据预测目标,确定自变量和因变量

在这里插入图片描述

将“广告费用”、“客流量”这两个变量当做自变量;
将“销售额”当做“因变量”;
预测广告费用和客流量两个自变量对超市销售额的影响。

2、绘制散点图,确定回归模型类型

观察两个变量之间是否存在线性关系
【图形】——【旧对话框】——【散点图/点图】——【矩形散点图】——【定义】
在这里插入图片描述
在这里插入图片描述
在弹出的【散点图矩阵】——将“广告费用”、“客流量”、“销售额”3个变量移至右侧的【矩阵变量】框中,其它选项保持默认设置,单击【确定】,即可完成矩阵散点图的绘制。
在这里插入图片描述
从图中我们可以看出,广告费用、客流量两个自变量分别与因变量销售额存在明显的线性相关关系。
广告费用与客流量之间也存在一定的线性关系。

3、估计模型参数,建立线性回归模型

【分析】——【回归】——【线性】——【线性回归】
设置因变量、自变量及选择变量的方法。在【线性回归】对话框中,将销售额变量移至【因变量】框中,将广告费用、客流量移至【自变量】框中,自变量步进【方法】下拉框,采用默认的【输入】方法。
在这里插入图片描述

🧡💛💚线性回归中方法的解析:

输入——强制将所选择的自变量纳入回归模型中;
步进——将自变量逐个引入模型并进行统计显著性检验,直至再也没有不显著的自变量从回归模型中剔除为止;
除去——根据设定条件,直接剔除一部分自变量;
后退——根据设定条件,每次剔除一个自变量直至不能剔除;
前进——根据设定条件,每次纳入一个自变量直至无法继续纳入。

在本例中,因为自变量只有两个,并且从业务角度判断“广告费用”“客流量”均是影响“销售额”变化的因素,所以可以采用【输入】将两个变量都纳入模型中,两个变量是否适合参与建模,通过后续输出的模型结果进行判断即可。
如果有较多的自变量且无法选择判断,那么就采用【步进】的方法,让SPSS根据检验结果进行选择。

💜💙💚设置回归系数及拟合度:
【统计】——【线性回归:统计】
①勾选【回归系数】框中的【估算值】复选框,作用是估计出回归系数;②勾选【模型拟合】复选框,作用是输出判定系数 R²。其他选项保持默认设置即可,单击【继续】——【线性回归】
💜💙💚设置自变量步数标准及常数项:
【线性回归】——【选项】——【线性回归:选项】——确认勾选【在方程中包括常量】复选框,即输出拟合直线的截距a,其他选项保持默认设置即可——【继续】——【线性回归】——【确定】,完成多重线性回归分析。

4、对回归模型进行检验

SPSS输出4张结果表:
(1)线性回归模型输入/除去变量表
在这里插入图片描述

因变量:销售额
自变量:客流量、广告费用
自变量步进方法:输入
第3列除去的变量指的是:因为自变量步进方法为“输入”,所以“广告费用”、“客流量”两个变量全部纳入模型中,没有移出的变量。

(2)线性回归模型汇总表
在这里插入图片描述
多重线性回归模型的拟合效果主要看第4列。

调整后R²:主要衡量在多重线性回归模型建立过程中加入其它自变量后模型拟合优度的变化。
调整后R²:0.747,代表“广告费用”和“客流量”两个自变量合起来能够解释模型变化的73.2%,模型拟合效果良好。

(3)线性回归方差分析表
模型1 的方差分析结果:
在这里插入图片描述
F检验的显著性(P值)=0.000<0.01,即认为模型1 在0.01显著性水平下,由自变量“客流量”、“广告费用”和因变量“销售额” 建立起来的线性关系具有显著的统计学意义。
(4)线性回归模型回归系数表
在这里插入图片描述
第1列为常量、广告费用、客流量,分别为回归模型中的常量与自变量X1、X2。
第2列为B分别为常量a(截距)、偏回归系数b1和b2,据此可以写出多重线性回归模型:

Y=363.31+7.22 X1+16.381 X2

第4列为标准化系数:用来测量自变量对因变量的重要性,本例中,X1和X2标准化系数分别为0.407、0.499,也就是说,客流量对销售额的影响要大于广告费用对销售额的影响。
第5、6列分别为回归系数 t 检验和相应的显著性(P值),显著性(P值)同样与显著性水平 α 进行比较,本例中偏回归系数b1显著性(P值)=0.012<0.05,说明偏回归系数b1具有显著的统计学意义;偏回归系数b2显著性(P值)=0.003<0.01,说明偏回归系数b2具有极其显著的统计学意义,即因变量“销售额”和自变量“广告费用”“客流量”之间至少存在显著的线性关系。

5、利用回归模型进行预测

例如,接下来要投入20万的广告费用,根据超市往年客流量数据预估下一个月客流量可达10万人次,假设在其他因素稳定的情况下,下一个月的销售额预估达到多少万元?

将预估的自变量数据代入我们刚才得到的多重线性回归模型中,最终我们预测销售额可达671.7万元左右。

若需要预测的数据较多,可以用**【线性回归:保存】——勾选【预测值】框中的【未标准化】复选框,运行后就可以在原数据集中新增一列预测值变量,这样就得到了新增自变量对应的因变量预测值。**

在这里插入图片描述

学习参考:多重线性回归,你用对了吗?
《谁说菜鸟不会数据分析-SPSS篇》

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页