【线性回归】线性回归模型中几个参数的解释
R方
-
决定系数/拟合优度
类似于一元线性回归,构造决定系数。称为y关于自变量的样本复相关系数。
其中,,有SST=SSR+SSE
总离差平方和记为SST,回归平方和记为SSR,残差平方和为SSE。
由公式可见,SSR是由回归方程确定的,即是可以用自变量x进行解释的波动,而SSE为x之外的未加控制的因素引起的波动。这样,总离差平方和SST中能够由方程解释的部分为SSR,不能解释的部分为SSE。
-
意义
意味着回归方程中能被解释的误差占总误差的比例。一般来说越大,拟合效果越好,一般认为超过0.8的模型拟合优度比较高。
需要注意的是当样本量小时,很大(例如0.9)也不能肯定自变量与因变量之间关系就是线性的。
随着自变量的增多,必定会越来越接近于1,但这会导致模型的稳定性变差,即模型用来预测训练集之外的数据时,预测波动将会非常大,这个时候就会对作调整,调整R方可以消除自变量增加造成的假象。
F检验
0、预备知识
(1)假设检验
为了判断与检测X是否具备对Y的预测能力,一般可以通过相关系数、图形等方法进行衡量,但这只是直观的判断方法。通过对回归参数做假设检验可以为我们提供更严格的数量化分析方法。
(2)全模型与简化模型
我们称之为全模型(full Model,FM)
通过对某些回归系数进行假设,使其取指定的值,把这些指定的值带入全模型中,得到的模型称为简化模型(reduced model,RM)。常用的简化方法将在之后介绍。
1、F检验
检验是线性模型的假设检验中最常用的一种检验,通过值的大小可以判断提出的假设是否合理,即是否接受简化模型。
-
为检验我们的假设是否合理,即评估简化模型相对全模型拟合效果是否一样好,需要先建立对两个模型拟合效果的评价方法。这里我们通过计算模型的残差平方和()来衡量模型拟合数据时损失的信息量,也表示模型的拟合效果。
-
需要注意到增加模型中待估参数的个数,模型拟合的残差平方和()一定不会减小,所以。即为简化模型相对于全模型残差平方和的增加量,即简化模型相对全模型拟合数据时多损失的信息量。我们用"多损失的信息量"/"原损失的信息量"作为检验的统计量,得到。
-