残差的尺度化方法

内容来源

线性回归分析导论 原书第5版 机械工业出版社


尺度化残差用于寻找观测值中的离群值

书中有四种残差尺度化的方法,本篇讲标准化残差与学生化残差


标准化残差

定义如下

d i = e i M S 残 d_i=\frac{e_i}{\sqrt{MS_{残}}} di=MS ei

M S 残 MS_{残} MS 是残差的平均方差的估计量

标准化的残差有零均值和近似为一的方差

有较大的标准化残差,可能意味着对应的数据是离群点(比如 d i > 3 d_i>3 di>3

就是构造了一个零均值一方差的随机变量,简单但没那么有效

学生化残差

因为 M S 残 MS_{残} MS 仅仅是平均方差的估计量

所以将其替换为第 i i i 个残差的精确标准差是一种显而易见的改进方法

残差向量可以写为

e = ( I − H ) y e=(I-H)y e=(IH)y

带入 y = X β + ϵ y=X\beta+\epsilon y=+ϵ ,得

e = ( I − H ) ( X β + ϵ ) = X β − H X β + ( I − H ) ϵ = X β − X ( X ′ X ) − 1 X ′ X β + ( I − H ) ϵ = ( I − H ) ϵ \begin{align*} e&=(I-H)(X\beta+\epsilon)\\ &=X\beta-HX\beta+(I-H)\epsilon\\ &=X\beta-X(X'X)^{-1}X'X\beta+(I-H)\epsilon\\ &=(I-H)\epsilon \end{align*} e=(IH)(+ϵ)=H+(IH)ϵ=X(XX)1X+(IH)ϵ=(IH)ϵ

所以

残差可由观测值 y y y 或误差 ϵ \epsilon ϵ 作相同的线性变换得出

残差的协方差矩阵为

V a r ( e ) = V a r [ ( I − H ) ϵ ] = ( I − H ) V a r ( ϵ ) ( I − H ) ′ = σ 2 ( I − H ) Var(e)=Var[(I-H)\epsilon]=(I-H)Var(\epsilon)(I-H)'=\sigma^2(I-H) Var(e)=Var[(IH)ϵ]=(IH)Var(ϵ)(IH)=σ2(IH)

矩阵 I − H I-H IH 一般不是对角阵,所以每个残差有不同的方差,不同残差可能是相关的

i i i 个残差的方差为

V a r ( e i ) = σ 2 ( 1 − h i i ) Var(e_i)=\sigma^2(1-h_{ii}) Var(ei)=σ2(1hii)

不同残差之间的协方差为

C o v ( e i , e j ) = − σ 2 h i j Cov(e_i,e_j)=-\sigma^2h_{ij} Cov(ei,ej)=σ2hij

其中 h i j h_{ij} hij 表示帽子矩阵的第 i i i 行第 j j j 列的元素

由于 h i i ∈ [ 0 , 1 ] h_{ii}\in[0,1] hii[0,1] ,所以使用残差均方 M S 残 MS_{残} MS 来估计残差的方差会高估 V a r ( e i ) Var(e_i) Var(ei)

学生化残差的式子如下

r i = e i M S 残 ( 1 − h i i ) r_i=\frac{e_i}{\sqrt{MS_{残}(1-h_{ii})}} ri=MS(1hii) ei

当模型形式正确时,无论 x i x_i xi 的位置如何,学生化残差都有常数方差 V a r ( r i ) = 1 Var(r_i)=1 Var(ri)=1

在大型数据集的情形下,标准化残差与学生化残差几乎没有区别,两者传递的信息通常是等价的

但是,由于任何残差较大且 h i i h_{ii} hii 较大的点都有可能对最小二乘拟合有较大影响,所以一般而言推荐使用学生化残差

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值