回归分析

回归分析

0X00 前言

回归分析是研究自变量和因变量之间数量变化关系的一种分析方法,它主要是通过建立因变量Y与影响它的自变量X之间的回归模型,衡量自变量X对因变量Y的影响能力,进而可以预测因变量Y的发展趋势。

0X01 相关性分析与回归分析的联系与区别

相关性分析与回归分析的联系是:两者均为研究及测度两个或两个以上变量之间关系的方法。在实际工作中,一般先进行相关分析,计算相关系数,然后建立回归模型,最后用回归模型进行推算或预测。

相关分析与回归分析的区别是:

(1)相关分析研究的都是随机变量,并且不分因变量和自变量;回归分析研究的变量要定义出自变量和因变量,并且自变量是确定的普通变量,因变量是随机变量。

(2)相关分析主要是描述两个变量之间相关关系的密切程度;回归分析不仅可以揭示变量X对变量Y的影响程度,还可以根据回归模型进行预测。

回归分析模型主要包括线性回归及非线性回归两种。线性回归又分为简单线性回归、多重线性回归;而非线性回归,需要进行对数转化等方式,将其转化为线性回归的形式进行研究。

线性回归分析的步骤如下:

(1)根据预测目标,确定自变量和因变量

围绕业务问题,明晰预测目标,从经验、常识、以往历史数据研究等角度,初步确定自变量和因变量。

(2)绘制散点图,确定回归模型类型

通过绘制散点图的方式,从图形化的角度初步判断自变量和因变量之间是否具有线性相关关系,同时进行相关分析,根据相关系数判断自变量与因变量之间的相关程度和方向,从而确定回归模型的类型。

(3)估计模型参数,建立回归模型

采用最小二乘法进行模型参数的估计,建立回归模型。

(4)对回归模型进行检验

回归模型可能不是一次即可达到预期的,通过对整个模型及各个参数的统计显著性检验,逐步优化和最终确立回归模型。

(5)利用回归模型进行预测

模型通过检验后,应用到新的数据中,进行因变量目标值的预测。

0X02 简单线性回归分析

简单线性回归也称为一元线性回归,就是回归模型中只含一个自变量,它主要用来处理一个自变量与一个因变量之间的线性关系。简单线性回归模型为:

Y=a+bX+ε

式中,Y:因变量,X:自变量,a:常数项,是回归直线在纵坐标轴上的截距;b:回归系数,是回归直线的斜率;ε:随机误差,即随机因素对因变量所产生的影响。

常数项a就是截距,回归系数b就是斜率,表面自变量对因变量的影响程度。那么如何得到最佳的a和b,使得尽可能多的(X,Y)数据点落在或者更加靠近这条拟合出来的直线上,最小二乘法就是一个较好的计算方法。

最小二乘法,又称最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法名字的缘由有两个:一是要将误差最小化;二是将误差最小化的方法是使误差的平方和最小化。最小二乘法在回归模型上的应用,就是要使得观测点和估计点的距离的平方和达到最小,使得尽可能多的(X,Y)数据点或者更加靠近这条拟合出来的直线上。

在对回归模型进行校验时,判断系数R²也称拟合优度或决定系数,即相关系数R的平方,用于表示拟合得到的模型能解释因变量变化的百分比,R²越接近1,表示回归模型拟合效果越好。

简单线性回归主要采用R²衡量模型拟合效果,而调整后R²用于修正因自变量个数的增加而导致模型拟合效果过高的情况,它多用于衡量多重线性回归分析模型的拟合效果。

线性回归方差分析表的主要作用是通过F检验来判断回归模型的回归效果,即检验因变量与所有自变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。主要有平方和(SS)、自由度(df)、均方(MS)、F(F统计量)、显著性(P值)五大指标。通常只需要关注F和显著性(P值)两个指标,其中主要参考显著性(P值),因为计算出F统计量,还需要查找统计表(F分布临界值表),并与之进行比较大小才能得出结果,而显著性(P值)可直接与显著性水平α(0.01,0.05)比较得出结果。

显著性(P值)是在显著性水平α(常用取值0.01或0.05)下F的临界值,一般我们以此来衡量检验结果是否具有显著性,如果显著性(P值)>0.05,则结果不具有显著的统计学意义;如果0.01<显著性(P值)<0.05,则结果具有显著的统计学意义;如果显著性(P值)<0.01,则结果具有极其显著的统计学意义。

线性回归模型回归系数表,主要用于回归模型的描述和回归系数的显著性检验。即研究回归模型中的每个自变量与因变量之间是否存在显著的线性关系,也就是研究自变量能否有效地解释因变量的线性变化,它们能否保留在线性回归模型中。

0X02 多重线性回归分析

简单线性回归模型只考虑单因素影响,事实上,影响因变量的因素往往不止一个,可能会有多个影响因素,这就需要用到多重线性回归分析。多重线性回归与多元线性回归区别就看因变量或自变量的个数,多重线性回归是指包含两个或两个以上自变量的线性回归模型,而多元线性回归是指包含两个或两个以上因变量的线性回归模型。所以,多重线性回归模型为:

在这里插入图片描述
多重线性回归中涉及多个自变量,建议采用“步进”方法较为稳健,一般也称之为逐步回归法,是“后退”、“前进”两种方法的结合。逐步回归会根据每个自变量对模型的贡献对自变量进行依次筛选,逐步剔除那些没有显著统计学意义的自变量,直至再也没有不显著的自变量从回归模型中剔除为止,这是一个模型自动优化的过程,在多重线性回归中应用较广。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值