一、简介
当我们建立线性模型后,可能也通过了F检验,但得到的模型就是合理的吗?不一定,因为有的数据可能并不是线性关系的,对于一元回归问题,我们或许可以通过画图观察自变量和因变量是否可以用线性模型刻画。但是,对于多元回归模型,试图通过画图的方式来判断线性关系是不可行的。那么,一般情况下,我们如何验证线性模型的合理性呢?这个时候就需要对所建立模型进行误差诊断,通过分析其残差来判断回归分析的基本假设是否成立。如发现果不成立,那么所有的区间估计、显著性检验都是不可靠的!
二、残差
2.1 残差的定义和性质
这里详细介绍了线性回归模型,其中,大多数的分析都是基于误差的假设:
ϵ
i
∼
i
i
d
N
(
0
,
σ
2
)
\epsilon_i\stackrel{iid}{\sim}N(0,\sigma^2)
ϵi∼iidN(0,σ2)。如何考察数据基本上满足这些假设?自然从残差的角度来解决问题,这种方法叫残差分析。研究那些对统计推断(估计、检验、预测和控制)有较大影响的点,这样的点叫做影响点。剔除那些有较强影响的异常/离群(outlier)数据,这就是所谓的影响分析(influence analysis)。
残差的数学定义为:
ϵ
^
=
Y
−
Y
^
(1)
\hat\epsilon = Y-\hat Y\tag1
ϵ^=Y−Y^(1)
其中,
Y
^
\hat Y
Y^为模型预测的值。
残差的数学性质如下: 在假设
ϵ
∼
N
(
0
,
σ
2
I
n
)
\epsilon\sim N(0,\sigma^2I_n)
ϵ∼N(0,σ2In)下,
- ϵ ^ ∼ N ( 0 , σ 2 ( I n − P ) ) \hat\epsilon \sim N(0,\sigma^2(I_n-P)) ϵ^∼N(0,σ2(In−P))
- C o v ( Y ^ , ϵ ^ ) = 0 Cov(\hat Y,\hat\epsilon) = 0 Cov(Y^,ϵ^)=0
- 1 ⊤ ϵ ^ = 0 1^\top\hat\epsilon = 0 1⊤ϵ^=0
其中,
P
P
P的定义为
P
=
X
(
X
⊤
X
)
−
1
X
⊤
P = X(X^\top X)^{-1}X^\top
P=X(X⊤X)−1X⊤,而且
P
P
P有以下性质:
P
=
P
⊤
=
P
2
P = P^\top=P^2
P=P⊤=P2,
I
n
−
P
=
(
I
n
−
P
)
⊤
=
(
I
n
−
P
)
2
I_n-P = (I_n-P)^\top=(I_n-P)^2
In−P=(In−P)⊤=(In−P)2
从其中,我们可以看到
V
a
r
[
ϵ
^
i
]
=
σ
2
(
1
−
p
i
i
)
Var[\hat\epsilon_i] = \sigma^2(1-p_{ii})
Var[ϵ^i]=σ2(1−pii),其中
p
i
i
p_{ii}
pii为投影矩阵
P
P
P的元素,该方差与
σ
2
\sigma^2
σ2和
p
i
i
p_{ii}
pii都有关,因此直接比较
ϵ
^
i
\hat\epsilon_i
ϵ^i是不恰当的。为此,将残差标准化:
ϵ
^
i
−
E
[
ϵ
^
i
]
V
a
r
[
ϵ
^
i
]
=
ϵ
^
i
σ
1
−
p
i
i
,
i
=
1
,
…
,
n
(2)
\frac{\hat\epsilon_i-E[\hat\epsilon_i]}{\sqrt{Var[\hat\epsilon_i}]}= \frac{\hat\epsilon_i}{\sigma\sqrt{1-p_{ii}}},\ i=1,\dots,n\tag 2
Var[ϵ^i]ϵ^i−E[ϵ^i]=σ1−piiϵ^i, i=1,…,n(2)
其中
σ
\sigma
σ是未知的,可以用
σ
^
\hat\sigma
σ^来代替,
σ
^
2
=
S
e
2
/
(
n
−
p
)
\hat\sigma^2 = S_e^2/(n-p)
σ^2=Se2/(n−p),因此可以得到学生化残差为:
t
i
=
ϵ
^
i
σ
^
1
−
p
i
i
(3)
t_i = \frac{\hat\epsilon_i}{\hat{\sigma}\sqrt{1-p_{ii}}}\tag3
ti=σ^1−piiϵ^i(3)
re:
- t i t_i ti虽然是 ϵ ^ i \hat\epsilon_i ϵ^i的学生化,但但它的分布并不服从 t t t分布,它的分布比较复杂
- t 1 , … , t n t_1,\dots,t_n t1,…,tn通常是不独立的
- 在实际应用中,可以近似认为 t 1 , … , t n t_1,\dots,t_n t1,…,tn是独立的,且服从 N ( 0 , 1 ) N(0,1) N(0,1)分布
- 在实际应用中使用的残差图就是根据上述假定来对模型合理性进行诊断的
2.2 残差图
残差图:以残差为纵坐标,其他的量(一般为拟合值
y
^
i
\hat y_i
y^i,它们两个是独立的)为横坐标的散点图。
由于可以近似认为
t
1
,
…
,
t
n
t_1,\dots,t_n
t1,…,tn是独立的,且服从
N
(
0
,
1
)
N(0,1)
N(0,1)分布,因此可以认为它们是来自
N
(
0
,
1
)
N(0,1)
N(0,1)的
i
i
d
iid
iid样本。根据标准正态的性质,大概有
95
%
95\%
95%的
t
i
t_i
ti落在
[
−
2
,
2
]
[-2, 2]
[−2,2]内。同时,由于
Y
^
\hat Y
Y^与
ϵ
^
\hat\epsilon
ϵ^不相关,因此
y
^
i
\hat y_i
y^i与学生化残差
t
i
t_i
ti的相关性也很小。
这样在残差图中,点
(
y
^
i
,
t
i
)
,
i
=
1
,
…
,
n
(\hat y_i,t_i),i=1,\dots,n
(y^i,ti),i=1,…,n大致应该落在宽度为
4
4
4的水平带
∣
t
i
∣
≤
2
|t_i|\le 2
∣ti∣≤2的区域内,且不呈现任何趋势。如下图:
![](https://i-blog.csdnimg.cn/blog_migrate/0349ef121dcab0be66c4977987740a89.png)
当然还有一些异常的残差图:
![](https://i-blog.csdnimg.cn/blog_migrate/cbed04dd0f1391efcee047258a9d61fd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1b9750c7dbae8844cca758b041573360.png)
![](https://i-blog.csdnimg.cn/blog_migrate/50014d60bf8a985cc57b940aa3722e8f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6c4b6d570df1658e911a068b1ba18c35.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f23462b9c8225806446233bf7020888.png)
2.3 残差诊断的思路
如果残差图中显示非线性,可适当增加自变量的二次项或者交叉项。具体问题具体分析。
如果残差图中显示误差方差不相等(heterogeneity, 方差非齐性),可以对变量做适当的变换,使得变换后的相应变量具有近似相等的方差(homogeneity, 方差齐性)。最著名的方法是Box-Cox变换,对因变量(响应变量)进行如下变换:
Y
(
λ
)
=
{
1
λ
(
Y
λ
−
1
)
λ
≠
0
log
Y
λ
=
0
Y{(\lambda)} = \begin{cases} \frac 1\lambda (Y^{\lambda}-1) \ \lambda \neq 0\\ \log Y\ \lambda=0 \end{cases}
Y(λ)={λ1(Yλ−1) λ=0logY λ=0
其中,
λ
\lambda
λ是待定的变换参数,可由极大似然法估计。注意此变换只是针对
Y
Y
Y为正数的情况。如果出现负数时,需要作出调整。
2.4 离群值
原因:
- 主观原因:收集和记录数据时出现错误
- 客观原因:重尾分布(比如, t t t分布)和混合分布
离群值的简单判断:
- 数据散点图
- 学生化残差图,如果 ∣ t i ∣ > 3 |t_i|>3 ∣ti∣>3(或者2.5,2),则对应的数据判定为离群值。
- 离群值的统计检验方法,M-估计(Maximum likelihood type estimators)
- 利用Cook距离,其定义为: D i = ( β ^ − β ^ ( i ) ) ⊤ X ⊤ X ( β ^ − β ^ ( i ) ) p σ ^ 2 , i = 1 , … , n D_i = \frac{(\hat\beta-\hat\beta_{(i)})^\top X^\top X(\hat\beta-\hat\beta_{(i)}) }{p\hat\sigma^2},i=1,\dots,n Di=pσ^2(β^−β^(i))⊤X⊤X(β^−β^(i)),i=1,…,n其中, β ^ ( i ) \hat\beta_{(i)} β^(i)为剔除第 i i i个数据得到 β \beta β的最小二乘估计