内容来源
线性回归分析导论 原书第5版 机械工业出版社
尺度化残差用于寻找观测值中的离群值
书中有四种残差尺度化的方法,本篇讲标准化残差与学生化残差
标准化残差
定义如下
d i = e i M S 残 d_i=\frac{e_i}{\sqrt{MS_{残}}} di=MS残ei
M S 残 MS_{残} MS残 是残差的平均方差的估计量
标准化的残差有零均值和近似为一的方差
有较大的标准化残差,可能意味着对应的数据是离群点(比如 d i > 3 d_i>3 di>3 )
就是构造了一个零均值一方差的随机变量,简单但没那么有效
学生化残差
因为 M S 残 MS_{残} MS残 仅仅是平均方差的估计量
所以将其替换为第 i i i 个残差的精确标准差是一种显而易见的改进方法
残差向量可以写为
e = ( I − H ) y e=(I-H)y e=(I−H)y
带入 y = X β + ϵ y=X\beta+\epsilon y=Xβ+ϵ ,得
e = ( I − H ) ( X β + ϵ ) = X β − H X β + ( I − H ) ϵ = X β − X ( X ′ X ) − 1 X ′ X β + ( I − H ) ϵ = ( I − H ) ϵ \begin{align*} e&=(I-H)(X\beta+\epsilon)\\ &=X\beta-HX\beta+(I-H)\epsilon\\ &=X\beta-X(X'X)^{-1}X'X\beta+(I-H)\epsilon\\ &=(I-H)\epsilon \end{align*} e=(I−H)(Xβ+ϵ)=Xβ−HXβ+(I−H)ϵ=Xβ−X(X′X)−1X′Xβ+(I−H)ϵ=(I−H)ϵ
所以
残差可由观测值 y y y 或误差 ϵ \epsilon ϵ 作相同的线性变换得出
残差的协方差矩阵为
V a r ( e ) = V a r [ ( I − H ) ϵ ] = ( I − H ) V a r ( ϵ ) ( I − H ) ′ = σ 2 ( I − H ) Var(e)=Var[(I-H)\epsilon]=(I-H)Var(\epsilon)(I-H)'=\sigma^2(I-H) Var(e)=Var[(I−H)ϵ]=(I−H)Var(ϵ)(I−H)′=σ2(I−H)
矩阵 I − H I-H I−H 一般不是对角阵,所以每个残差有不同的方差,不同残差可能是相关的
第 i i i 个残差的方差为
V a r ( e i ) = σ 2 ( 1 − h i i ) Var(e_i)=\sigma^2(1-h_{ii}) Var(ei)=σ2(1−hii)
不同残差之间的协方差为
C o v ( e i , e j ) = − σ 2 h i j Cov(e_i,e_j)=-\sigma^2h_{ij} Cov(ei,ej)=−σ2hij
其中 h i j h_{ij} hij 表示帽子矩阵的第 i i i 行第 j j j 列的元素
由于 h i i ∈ [ 0 , 1 ] h_{ii}\in[0,1] hii∈[0,1] ,所以使用残差均方 M S 残 MS_{残} MS残 来估计残差的方差会高估 V a r ( e i ) Var(e_i) Var(ei)
学生化残差的式子如下
r i = e i M S 残 ( 1 − h i i ) r_i=\frac{e_i}{\sqrt{MS_{残}(1-h_{ii})}} ri=MS残(1−hii)ei
当模型形式正确时,无论 x i x_i xi 的位置如何,学生化残差都有常数方差 V a r ( r i ) = 1 Var(r_i)=1 Var(ri)=1
在大型数据集的情形下,标准化残差与学生化残差几乎没有区别,两者传递的信息通常是等价的
但是,由于任何残差较大且 h i i h_{ii} hii 较大的点都有可能对最小二乘拟合有较大影响,所以一般而言推荐使用学生化残差