回归假设检验
模型的显著性检验:
模型的显著性检验是指构成因变量的线性组合是否有效,即整个模型中是否至少存在一个自变量能够真正影响到因变量的波动。该检验是用来衡量模型的整体效应。(F检验)
回归系数的显著性检验:
回归系数的显著性检验是为了说明单个自变量在模型中是否有效,即自变量对因变量是否具有重要意义。这种检验则是出于对单个变量的肯定与否。 (t检验)
模型的显著性检验——F检验
在统计学中,有关假设检验的问题,都有一套成熟的步骤。首先来看一下如何应用F检验法完成模型的显著性检验,具体的检验步骤如下:
(1)提出问题的原假设和备择假设。
(2)在原假设的条件下,构造统计量F。
(3)根据样本信息,计算统计量的值。
(4)对比统计量的值和理论F分布的值,如果计算的统计量值超过理论的值,则拒绝原假 设,否则需接受原假设。
F>0.05(拒绝原假设,原假设为模型不通过显著性检验:Bj = 0)
回归系数的显著性检验——t检验
模型通过了显著性检验,只能说明关于因变量的线性组合是合理的,但并不能说明每个自变量对因变量都具有显著意义,所以还需要对模型的回归系数做显著性检验。关于系数的显著性检验,需要使用t检验法,构造t统计量。
(1)提出问题的原假设和备择假设。
(2)在原假设的条件下,构造统计量t。
(3)根据样本信息,计算统计量的值。
(4)对比统计量的值和理论F分布的值,如果计算的统计量值超过理论的值,则拒绝原假 设,否则需接受原假设。
p值小于0.05表示拒绝原假设,说明变量通过系数的显著性检验。
回归模型评价指标
SSE(和方差、误差平方和):The sum of squares due to error
MSE(均方差、方差):Mean squared error
RMSE(均方根、标准差):Root mean squared error
R-square(确定系数):Coefficient of determination
Adjusted R-square:Degree-of-freedom adjusted coefficient of determination
一、SSE(和方差)
该统计参数计算的是拟合数据和原始数据对应点的误差的平方和,计算公式如下
SSE越接近于0,说明模型选择和拟合更好,数据预测也越成功。接下来的MSE和RMSE因为和SSE是同出一宗,所以效果一样
二、MSE(均方差)
该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是SSE/n,和SSE没有太大的区别,计算公式如下
三、RMSE(均方根)
该统计参数,也叫回归系统的拟合标准差,是MSE的平方根,就算公式如下
在这之前,我们所有的误差参数都是基于预测值(y_hat)和原始值(y)之间的误差(即点对点)。从下面开始是所有的误差都是相对原始数据平均值(y_ba)而展开的(即点对全)
四、MAE 平均绝对误差
五、R-square(确定系数)
在讲确定系数之前,我们需要介绍另外两个参数SSR和SST,因为确定系数就是由它们两个决定的
(1)SSR:Sum of squares of the regression,即预测数据与原始数据均值之差的平方和,公式如下
(2)SST:Total sum of squares,即原始数据和均值之差的平方和,公式如下
SST=SSE+SSR,“确定系数”是定义为SSR和SST的比值,故
其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0 1],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好
化简上面的公式
分子分母同时除以m
那么分子就变成了我们的均方误差MSE,下面分母就变成了方差。