异常检测:Leverage of observation

Leverage杠杆是一个指标,描述了样本对模型的影响程度
高杠杆点本质是一种离群点,但是它不同于普通离群点,和拟合直线比较远,而是离开群体远,却在拟合直线附近。为了,拟合得更好,拟合直线需要靠近这点以减少拟合误差。这样导致了直线偏离了其他的点,这点相当于一个支点。个人认为这是杠杆的由来。

y = X β + ϵ , X ∈ R m × n , y ∈ R m × 1 , ϵ ∼ N ( 0 , σ 2 ) β ^ = ( X T X ) − 1 X T y y = X\beta+\epsilon,X\in \mathbb{R}^{m \times n},y \in \mathbb{R}^{m \times 1},\epsilon \sim N(0,\sigma^2)\\\hat{\beta}=(X^TX)^{-1}X^Ty y=Xβ+ϵ,XRm×n,yRm×1,ϵN(0,σ2)β^=(XTX)1XTy
y ^ = X β ^ = X ( X T X ) − 1 X T y = H y = ∑ i = 1 m ( h c i y i ) \hat{y}=X\hat{\beta}=X(X^TX)^{-1}X^Ty=Hy=\sum_{i=1}^m(h_{ci}y_i) y^=Xβ^=X(XTX)1XTy=Hy=i=1m(hciyi)
H H H是正交投影矩阵,符合 H 2 = H H^2=H H2=H, h c i h_{ci} hci表示H的第i列,类似地,用 h r i T h_{ri}^T hriT表示H的第i行, h i j h_{ij} hij表示H的一个元素

h i , j = x i T ( X T X ) − 1 x j h_{i,j}=x_i^T(X^TX)^{-1}x_j hi,j=xiT(XTX)1xj,反应了样本i和样本j之间的影响

y i ^ = h r i T y = ∑ j = 1 m ( h i j y j ) ∂ y i ^ ∂ y i = h i i \hat{y_i}=h_{ri}^Ty=\sum_{j=1}^m(h_{ij}y_j)\\\frac{\partial \hat{y_i}}{\partial y_i}=h_{ii} yi^=hriTy=j=1m(hijyj)yiyi^=hii

e = y − y ^ V a r ( e ) = V a r ( y − y ^ ) = V a r ( ( I − H ) y ) = ( I − H ) T V a r ( y ) ( I − H ) = σ 2 ( I − H ) e=y-\hat{y}\\Var(e)=Var(y-\hat{y})=Var((I-H)y)=(I-H)^TVar(y)(I-H)=\sigma ^2(I-H) e=yy^Var(e)=Var(yy^)=Var((IH)y)=(IH)TVar(y)(IH)=σ2(IH)

得到 V a r ( e i ) = ( 1 − h i i ) σ 2 Var(e_i)=(1-h_{ii})\sigma^2 Var(ei)=(1hii)σ2

显然, h i i h_{ii} hii越大,噪声越小
经过上面的分析可以知道, h i i = x i T ( X T X ) − 1 x i h_{ii}=x_i^T(X^TX)^{-1}x_i hii=xiT(XTX)1xi

这里的意义在哪里呢,先理解 y ^ = X ( X T X ) X T y \hat{y}=X(X^TX)X^Ty y^=X(XTX)XTy的意义

S V D ( X ) = U Σ V T SVD(X) = U\Sigma V^T SVD(X)=UΣVT,U代表X的列空间,V代表了行空间
y = y ^ + y ⊥ C o l ( X ) y = \hat{y}+y\perp Col(X) y=y^+yCol(X),y分解平行与列空间 C o l ( X ) Col(X) Col(X)和正交于 C o l ( X ) Col(X) Col(X)的部分
y ^ \hat{y} y^属于 C o l ( X ) Col(X) Col(X) r = R a n k ( X ) r=Rank(X) r=Rank(X),则可以表示为 y ^ = ∑ i = 1 r α i u i \hat{y}=\sum_{i=1}^r\alpha_iu_i y^=i=1rαiui
经过 X T y X^Ty XTy,发生两个作用

  1. X T y X^Ty XTy 的意义在于去掉y中属于 X T X^T XT的NULL空间的成分
  2. y中不同的特征向量成分经过不同的拉伸,导致 y ^ \hat{y} y^变形,为了克服这个问题,加入了 X ( X T X ) − 1 X(X^TX)^{-1} X(XTX)1,作为逆变换,将拉伸的部分还原回去。
    展开下式就明白了
    X ( X T X ) − 1 X T = U Σ V T ( V Σ − 2 V T ) V Σ U T = U [ I r 0 0 0 ] U T X(X^TX)^{-1}X^T=U\Sigma V^T(V\Sigma^{-2}V^T)V\Sigma U^T=U\begin{bmatrix} I_r & \mathbf{0} \\ \mathbf{0} & \mathbf{0} \end{bmatrix}U^T X(XTX)1XT=UΣVT(VΣ2VT)VΣUT=U[Ir000]UT
    就是保留平行于 C o l ( X ) Col(X) Col(X)的成分,同时不做拉伸

再看看
h i i = x i T ( X T X ) − 1 x i h_{ii}=x_i^T(X^TX)^{-1}x_i hii=xiT(XTX)1xi
类似地,有 x i = ∑ i = 1 r θ i v i x_i=\sum_{i=1}^r\theta_iv_i xi=i=1rθivi

h i i = x i T ( V Σ − 2 V T ) x i h_{ii}=x_i^T(V\Sigma^{-2}V^T)x_i hii=xiT(VΣ2VT)xi
假设 p = ∣ ∣ x i ∣ ∣ = s q r t ( ∑ i = 1 r θ i 2 ) p=||x_i||=sqrt(\sum_{i=1}^r\theta_i^2) p=xi=sqrt(i=1rθi2)
h i i = ∑ i = 1 r ( θ i / λ i ) 2 h_{ii}=\sum_{i=1}^r(\theta_i/\lambda_i)^2 hii=i=1r(θi/λi)2
λ 1 2 > = ⋯ > = λ r 2 \lambda_1^2>=\cdots>=\lambda_r^2 λ12>=>=λr2为X的奇异值

可以发现,令 θ i \theta_i θi变大后,会导致p变大, h i i h_{ii} hii也会变大,只是变得幅度跟对应的
λ i \lambda_i λi成反比。得出的结果是,在主成分方向,由于 λ i \lambda_i λi比较大, h i i h_{ii} hii变大的幅度比较慢,反之,变化较快。
studentized residual

t i = e i σ ^ 1 − h i i t_i=\frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}} ti=σ^1hii ei
可见,具有大的 h i i h_{ii} hii的样本具有放大残差的能力。所以为了减少总体的残差了,模型偏向于去减少这些样本的残差,从而导致了所谓杠杆效应。

参考
https://en.wikipedia.org/wiki/Leverage_(statistics)
https://www.zhihu.com/question/36224636/answer/66618532

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值