线性回归是一种常用的统计分析方法,用于建立自变量与因变量之间的线性关系模型。在回归分析中,我们希望通过最小化总离差平方和来拟合最佳的线性回归模型。本文将证明总离差平方和等于回归平方和加上残差平方和。
我们先回顾一下线性回归模型的表示形式。假设我们有一个包含n个样本的数据集,其中自变量为X,因变量为Y。线性回归模型可以表示为:
Y = β0 + β1*X + ε
其中,β0和β1是回归系数,ε是误差项(残差)。我们的目标是找到最佳的β0和β1,使得模型拟合数据最好。
首先,我们定义总离差平方和(Total Sum of Squares,SST)为观测值Y与其均值Y的差的平方和:
SST = Σ(Yi - Ȳ)²
其中,Yi表示第i个观测值,Ȳ表示所有观测值的均值。
接下来,我们定义回归平方和(Regression Sum of Squares,SSR)为预测值Y’与均值Ȳ的差的平方和:
SSR = Σ(Y’i - Ȳ)²
其中,Y’i表示通过回归模型预测得到的第i个观测值。
最后,我们定义残差平方和(Residual Sum of Squares,SSE)为观测值Y与预测值Y’的差的平方和: