引言:在前面一小节中,我们了解了如何利用最小二乘法求解拟合直线,今天我们继续了解回归直线的一些常见特征。
1 最小二乘法拟合最佳回归直线
最小二乘法拟合最佳回归直线,详见推文“最小二乘法与线性回归”。
小鼠体重和体积的数据中,利用最小二乘法拟合最佳回归直线:y=0.1+0.78x。
其中0.1为拟合直线在y轴上的截距,0.78为拟合直线的斜率。斜率不等于0,故可以根据小鼠的体重预测其体积。
2 计算拟合直线的R2,判断模型的优劣
既然我们已经通过最小二乘法求解出拟合直线,那么通过该直线的预测效果怎样呢?这就是我们接下来讨论的问题。
统计术语
情况1:不考虑x轴数据(即不考虑小鼠体重)时。
围绕均值的残差平方和(有时候也称围绕均值的平方和):SS(mean);
围绕均值的变异(即数据的方差):Var(mean);其中:n=样本数。
情况2:考虑x轴数据与y轴数据的关系(即考虑小鼠体重与小鼠体积的关系)时。
围绕拟合直线的残差平方和(有时候也记作围绕拟合直线的平方和):SS(fit);
围绕拟合直线的变异(即围绕拟合直线的数据方差):Var(fit);其中n=样本数。
R2量化由体重与体积关系解释的小鼠体积部分变异
通过前面两种情况的比较,可以得围绕拟合直线的变异小于围绕均值的变异,即SS(mean) >SS(fit)。这说明小鼠体重与体积的关系可以解释小鼠体积的部分变异,体重越重,体积越大。R2可以量化小鼠体重与体积的关系解释的小鼠体积部分变异,表示拟合直线所能减小的总体变异百分比,计算公式如下图:
R2可由SS(mean)、SS(fit)计算得出,也可由Var(mean)、Var(fit)计算得出,二者的结果完全等价,如下图。