方差 残差 离差
标签(空格分隔): 统计学概念
1.总平方和 ( S S T ) (SST) (SST)、回归平方和 ( S S R ) (SSR) (SSR) 与残差平方和 ( S S T ) (SST) (SST)
得到
β
^
\hat{\beta}
β^ 后,可以把
Y
Y
Y 分解为可以被解释变量解释的
Y
^
\hat{Y}
Y^ 和不能被解释的
u
^
\hat{u}
u^ 两部分:
Y
=
X
β
^
+
u
^
=
Y
^
+
u
^
Y = X \hat{\beta} + \hat{u} = \hat{Y} + \hat{u}
Y=Xβ^+u^=Y^+u^
定义总平方和(原始值-平均值):
S S T = ∑ t = 1 T ( y t − y ˉ ) 2 = ∑ t = 1 T y t 2 − 2 y ˉ ∑ t = 1 T y t + T y ˉ 2 SST = \sum_{t=1}^{T}(y_{t} - \bar{y})^{2} = \sum_{t=1}^{T}y_{t}^{2} - 2\bar{y}\sum_{t=1}^{T}y_{t} + T\bar{y}^{2} SST=t=1∑T(yt−yˉ)2=t=1∑Tyt2−2yˉt=1∑Tyt+Tyˉ2
其中 y ˉ \bar{y} yˉ 是 y t y_{t} yt 的样本平均数,定义为 y ˉ = 1 T ( ∑ t = 1 T y t ) \bar{y} = \frac{1}{T}(\sum_{t=1}^{T}y_{t}) yˉ=T1(∑t=1Tyt) 。
定义回归平方和为(回归值-均值):
S
S
R
=
∑
t
=
1
T
(
y
t
^
−
y
ˉ
)
2
=
Y
^
⋅
Y
^
−
T
y
ˉ
2
SSR = \sum_{t=1}^{T}(\hat{y_{t}} - \bar{y})^{2} = \hat{Y}·\hat{Y} - T\bar{y}^{2}
SSR=t=1∑T(yt^−yˉ)2=Y^⋅Y^−Tyˉ2
其中 y ˉ \bar{y} yˉ 的定义同上。
定义残差平方和为(原始值-回归值)
S
S
E
=
∑
t
=
1
T
(
y
t
−
y
t
^
)
2
=
∑
t
=
1
T
u
t
^
2
=
u
^
⋅
u
^
SSE = \sum_{t=1}^{T}(y_{t} - \hat{y_{t}})^{2} = \sum_{t=1}^{T}\hat{u_{t}}^{2} = \hat{u}·\hat{u}
SSE=t=1∑T(yt−yt^)2=t=1∑Tut^2=u^⋅u^
三者之间的关系如下:
S
S
T
=
S
S
R
+
S
S
E
SST = SSR + SSE
SST=SSR+SSE
证明:
Y ⋅ Y = ( X β ^ + u ^ ) ( X β ^ + u ^ ) = β ^ X X β ^ + u ^ u ^ + 2 β ^ X u ^ Y·Y = (X\hat{\beta} + \hat{u})(X\hat{\beta} + \hat{u}) = \hat{\beta}XX\hat{\beta} + \hat{u}\hat{u} + 2\hat{\beta}X\hat{u} Y⋅Y=(Xβ^+u^)(Xβ^+u^)=β^XXβ^+u^u^+2β^Xu^
由
X
u
^
=
0
X\hat{u} = 0
Xu^=0 。代入上式得:
Y
Y
=
β
^
X
X
β
^
+
u
^
u
^
YY = \hat{\beta}XX\hat{\beta} + \hat{u}\hat{u}
YY=β^XXβ^+u^u^
从上式两侧同减
T
y
ˉ
2
T\bar{y}^{2}
Tyˉ2 ,得:
S
S
T
=
S
S
R
+
S
S
E
SST = SSR + SSE
SST=SSR+SSE
S S E SSE SSE(和方差、误差平方和):The sum of squares due to error
M S E MSE MSE(均方差、方差): Mean squared error
R M S E RMSE RMSE(均方根、标准差):Root mean squared error
R − s q u a r e R-square R−square(确定系数):Coefficient of determination
A d j u s t e d R − s q u a r e Adjusted R-square AdjustedR−square: Degree-of-freedom adjusted coefficient of determination
下面对以上几个名词进行详细的解释:
(1)
S
S
E
SSE
SSE(和方差、残差):
该统计参数计算的是拟合数据和原始数据对应点的误差的平方和,计算公式如下:
S
S
E
=
∑
i
=
1
n
w
i
(
y
i
−
y
i
^
)
2
SSE = \sum_{i=1}^{n}w_{i}(y_{i}-\hat{y_{i}})^{2}
SSE=i=1∑nwi(yi−yi^)2
SSE 越接近于 0 ,说明模型选择和拟合更好,数据预测也越成功。
(2)
M
S
E
MSE
MSE(均方差):
该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是
S
S
E
/
n
SSE/n
SSE/n ,和
S
S
E
SSE
SSE 没有太大的区别,计算公式如下:
M
S
E
=
S
S
E
/
n
=
1
n
∑
i
=
1
n
w
i
(
y
i
−
y
i
^
)
2
MSE = SSE/n = \frac{1}{n}\sum_{i=1}^{n}w_{i}(y_{i} - \hat{y_{i}})^{2}
MSE=SSE/n=n1i=1∑nwi(yi−yi^)2
(3)
R
M
S
E
RMSE
RMSE(均方根):
该统计参数,也叫作回归系统的拟合标准差,是MSE 的平方根,计算公式如下:
注:在这之前,所有的误差参数都是基于预测值( y ^ \hat{y} y^)和原始值( y y y)之间的误差(即点对点)。从下面开始是所有的误差都是相对于原始数据平均值(\bar{y}) 而展开的(即点对全)。
(4)
R
−
s
q
u
a
r
e
(
确
定
系
统
)
R-square(确定系统)
R−square(确定系统):
在解释确定系统之前,先来介绍另外两个参数
S
S
R
SSR
SSR 和
S
S
T
SST
SST ,因为确定系数就是由它们两个决定的。
-
S
S
R
:
SSR:
SSR:(Sum of Squares of the Regression)即预测数据与原始数据均值之差的平方和,定义公式如下:
S S R = ∑ i = 1 n w i ( y i ^ − y i ˉ ) 2 SSR = \sum_{i=1}^{n}w_{i}(\hat{y_{i}} - \bar{y_{i}})^{2} SSR=i=1∑nwi(yi^−yiˉ)2 -
S
S
T
:
SST:
SST:(Total Sum of Squares)即原始数据和均值之差的平方和,定义公式如下:
S S T = ∑ i = 1 n w i ( y i − y i ˉ ) 2 SST = \sum_{i=1}^{n}w_{i}(y_{i} - \bar{y_{i}})^{2} SST=i=1∑nwi(yi−yiˉ)2
细心的网友会发现,
S
S
T
=
S
S
E
+
S
S
R
SST = SSE + SSR
SST=SSE+SSR,确定系数定义为
S
S
R
SSR
SSR 和
S
S
T
SST
SST 的比值,故:
R
−
s
q
u
a
r
e
=
S
S
R
S
S
T
=
S
S
T
−
S
S
E
S
S
T
=
1
−
S
S
E
S
S
T
R-square = \frac{SSR}{SST} = \frac{SST - SSE}{SST} = 1 - \frac{SSE}{SST}
R−square=SSTSSR=SSTSST−SSE=1−SSTSSE
其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0,1],越接近1,表明方程的变量对 y 的解释能力越强,这个模型对数据拟合的也较好。