残差与拟合优度
残差是响应变量(因变量)的观测值与模型的预测值之间的差。当拟合的模型适合数据时,残差接近独立随机误差。即,残差分布不应该呈现出可辨识的模式。
利用线性模型产生拟合需要尽量减小残差平方和。该最小化的结果即为最小二乘拟合。您可通过直观地观察残差图,了解拟合的“优度”。如果残差图具有一定的模式(即残差数据点未呈现随机分布),该随机性表明该模型并未适当地拟合数据。
评估您对数据进行的每个拟合。例如,如果您拟合数据的目的是提取具有物理含义的系数,则必须确保您的模型能够反映数据的物理属性。了解您的数据代表着什么、如何度量以及如何建模在评估拟合优度时非常重要。
拟合优度的一个度量是决定系数 或 R2(读作 R 的平方)。该统计量表明您通过拟合模型得到的值与模型可预测的因变量的匹配程度。统计人员通常利用拟合模型的残差方差定义 R2:
R2 = 1 – SSresid / SStotal
SSresid 是与回归的残差的平方和。SStotal 是与因变量均值的差的平方和(总平方和)。两者都是正标量。
若要了解在使用基本拟合工具时如何计算 R2,请参阅R2,决定系数。若要了解关于计算 R2 统计量及其多元概化的更多信息,请继续阅读此处的内容。示例:通过多项式拟合计算 R2
您可以从多项式回归的系数得出 R2,以确定线性模型对 y 的方差的解释率,如以下示例所述:
从数据文件 count.dat 中 count 变量的前两列创建两个变量 x 和 y:
load count.dat
x = count(:,1);
y = count(:,2);
利用 polyfit 计算从 x 预测 y 的线性回归:
p =