线性回归中有这样一条性质:
总偏差平方和
(
S
S
T
)
=
回归平方和(
S
S
R
)
+
残差平方和(
S
S
E
)
总偏差平方和 (SST) = 回归平方和(SSR) + 残差平方和(SSE)
总偏差平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
即:
∑
(
y
i
−
y
‾
)
2
=
∑
(
y
^
i
−
y
‾
)
2
+
∑
(
y
i
−
y
^
i
)
2
(1)
\sum(y_i-\overline y)^2=\sum(\hat y_i-\overline y)^2+\sum(y_i-\hat y_i)^2\tag{1}
∑(yi−y)2=∑(y^i−y)2+∑(yi−y^i)2(1)
证明:下面以一元回归为例证明。
∑
(
y
i
−
y
‾
)
2
=
∑
(
y
i
−
y
^
i
+
y
^
i
−
y
‾
)
2
=
∑
(
y
i
−
y
^
i
)
2
+
∑
(
y
^
i
−
y
‾
)
2
+
2
∑
(
y
i
−
y
^
i
)
(
y
^
i
−
y
‾
)
\begin{aligned} \sum(y_i-\overline y)^2&=\sum(y_i-\hat y_i+\hat y_i-\overline y)^2\\ &=\sum(y_i-\hat y_i)^2+\sum(\hat y_i-\overline y)^2+2\sum(y_i-\hat y_i)(\hat y_i-\overline y)\\ \end{aligned}
∑(yi−y)2=∑(yi−y^i+y^i−y)2=∑(yi−y^i)2+∑(y^i−y)2+2∑(yi−y^i)(y^i−y)
因此,我们需要证明 ∑ ( y i − y ^ i ) ( y ^ i − y ‾ ) = 0 \sum(y_i-\hat y_i)(\hat y_i-\overline y)=0 ∑(yi−y^i)(y^i−y)=0.
∑ ( y i − y ^ i ) ( y ^ i − y ‾ ) = ∑ ( y i − y ^ i ) y ^ i − y ‾ ∑ ( y i − y ^ i ) (2) \begin{aligned} \sum(y_i-\hat y_i)(\hat y_i-\overline y)&=\sum(y_i-\hat y_i)\hat y_i-\overline y\sum (y_i-\hat y_i)\\ \end{aligned}\tag{2} ∑(yi−y^i)(y^i−y)=∑(yi−y^i)y^i−y∑(yi−y^i)(2)
根据最小二乘法,若回归方程为:
y
=
β
0
+
β
1
x
y=\beta_0+\beta_1x
y=β0+β1x,优化目标是使得
f
=
∑
(
y
i
−
β
0
−
β
1
x
i
)
2
f=\sum (y_i-\beta_0-\beta_1x_i)^2
f=∑(yi−β0−β1xi)2最小,通过令一阶导数
f
f
f 为零计算
β
0
,
β
1
\beta_0, \beta_1
β0,β1:
∂
f
∂
β
0
=
−
2
∑
(
y
i
−
β
0
−
β
1
x
i
)
=
0
\begin{aligned} \frac{\partial f}{\partial \beta_0}=-2\sum(y_i-\beta_0-\beta_1x_i)=0 \end{aligned}
∂β0∂f=−2∑(yi−β0−β1xi)=0
由于
y
^
i
=
β
0
+
β
1
x
i
\hat y_i=\beta_0+\beta_1x_i
y^i=β0+β1xi,所以
∑
(
y
i
−
y
^
i
)
=
0
(3)
\sum (y_i-\hat y_i)=0\tag{3}
∑(yi−y^i)=0(3)
又因为:
∂
f
∂
β
1
=
−
2
∑
x
i
(
y
i
−
β
0
−
β
1
x
i
)
=
0
\begin{aligned} \frac{\partial f}{\partial \beta_1}=-2\sum x_i(y_i-\beta_0-\beta_1x_i)=0 \end{aligned}
∂β1∂f=−2∑xi(yi−β0−β1xi)=0
所以,
∑
(
β
0
+
β
1
x
i
)
(
y
i
−
β
0
−
β
1
x
i
)
=
∑
y
^
i
(
y
^
i
−
y
i
)
=
0
(4)
\sum (\beta_0+\beta_1x_i)(y_i-\beta_0-\beta_1x_i)=\sum\hat y_i(\hat y_i-y_i)=0\tag{4}
∑(β0+β1xi)(yi−β0−β1xi)=∑y^i(y^i−yi)=0(4)
综合表达式 (2),(3),(4),表达式(1)成立。因此:
总偏差平方和
(
S
S
T
)
=
回归平方和(
S
S
R
)
+
残差平方和(
S
S
E
)
总偏差平方和 (SST) = 回归平方和(SSR) + 残差平方和(SSE)
总偏差平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
□
\Box
□