Cook距离

Cook距离

 对于线性模型

Y=Xβ+ϵ.E(ϵ)=0,Cov(ϵ)=σ2In(1) (1) Y = X β + ϵ . E ( ϵ ) = 0 , C o v ( ϵ ) = σ 2 I n

β β 的最小二乘估计为 β^=(XTX)1XTY β ^ = ( X T X ) − 1 X T Y ,用 Y(i) Y ( i ) , X(i) X ( i ) ϵ(i) ϵ ( i ) 分别表示 Y Y ,X ϵ ϵ 中提出第 i i 行得到向量或者矩阵,剩下的n1组数据的线性模型为:
Y(i)=X(i)β+ϵ(i).E(ϵ(i))=0,Cov(ϵ(i))=σ2In1(2) (2) Y ( i ) = X ( i ) β + ϵ ( i ) . E ( ϵ ( i ) ) = 0 , C o v ( ϵ ( i ) ) = σ 2 I n − 1

 由此模型得到的 β β 的最小二乘估计为 β^(i)=(XT(i)X(i))1XT(i)Y(i) β ^ ( i ) = ( X ( i ) T X ( i ) ) − 1 X ( i ) T Y ( i ) 。称 IF=β^β^(i) I F = β ^ − β ^ ( i ) 为第 i i 组数据对β的印象函数,反映了第 i i 组数据对回归系数估计β的影响大小,由于此函数为向量函数,不便于定量比较影响的大小,考虑引入某种数量化的函数, Cook C o o k 统计量是使用最为广泛的一种。
Di,1(M,C)=(β^β^(i))TM(β^β^(i))/C.(3) (3) D i , 1 ( M , C ) = ( β ^ − β ^ ( i ) ) T M ( β ^ − β ^ ( i ) ) / C .

 式中, M M 为正定矩阵,C为给定的常数, Di,1(M,C) D i , 1 ( M , C ) 度量了回归系数估计 β β 的影响大小,取 M=XTX M = X T X , C=pσ^2 C = p σ ^ 2 p p 为必要观测数,σ^2为利用完全数据计算得到的单位权方差),则成为 Cook C o o k 距离,则:
Di,1(XTX,C)=(β^β^(i))TXTX(β^β^(i))pσ^2(4) (4) D i , 1 ( X T X , C ) = ( β ^ − β ^ ( i ) ) T X T X ( β ^ − β ^ ( i ) ) p σ ^ 2

Cook C o o k 距离越大,表示提出第组数据后,参数的变化越大。计算得到的值较大的点实际上是偏离预先选定的经验协方差函数模型较大的点,将之剔除,以达到拟合点优选的目的,提高协方差函数的拟合精度。

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值