Leverage杠杆是一个指标,描述了样本对模型的影响程度
高杠杆点本质是一种离群点,但是它不同于普通离群点,和拟合直线比较远,而是离开群体远,却在拟合直线附近。为了,拟合得更好,拟合直线需要靠近这点以减少拟合误差。这样导致了直线偏离了其他的点,这点相当于一个支点。个人认为这是杠杆的由来。
y
=
X
β
+
ϵ
,
X
∈
R
m
×
n
,
y
∈
R
m
×
1
,
ϵ
∼
N
(
0
,
σ
2
)
β
^
=
(
X
T
X
)
−
1
X
T
y
y = X\beta+\epsilon,X\in \mathbb{R}^{m \times n},y \in \mathbb{R}^{m \times 1},\epsilon \sim N(0,\sigma^2)\\\hat{\beta}=(X^TX)^{-1}X^Ty
y=Xβ+ϵ,X∈Rm×n,y∈Rm×1,ϵ∼N(0,σ2)β^=(XTX)−1XTy
y
^
=
X
β
^
=
X
(
X
T
X
)
−
1
X
T
y
=
H
y
=
∑
i
=
1
m
(
h
c
i
y
i
)
\hat{y}=X\hat{\beta}=X(X^TX)^{-1}X^Ty=Hy=\sum_{i=1}^m(h_{ci}y_i)
y^=Xβ^=X(XTX)−1XTy=Hy=i=1∑m(hciyi)
H
H
H是正交投影矩阵,符合
H
2
=
H
H^2=H
H2=H,
h
c
i
h_{ci}
hci表示H的第i列,类似地,用
h
r
i
T
h_{ri}^T
hriT表示H的第i行,
h
i
j
h_{ij}
hij表示H的一个元素
h i , j = x i T ( X T X ) − 1 x j h_{i,j}=x_i^T(X^TX)^{-1}x_j hi,j=xiT(XTX)−1xj,反应了样本i和样本j之间的影响
y i ^ = h r i T y = ∑ j = 1 m ( h i j y j ) ∂ y i ^ ∂ y i = h i i \hat{y_i}=h_{ri}^Ty=\sum_{j=1}^m(h_{ij}y_j)\\\frac{\partial \hat{y_i}}{\partial y_i}=h_{ii} yi^=hriTy=j=1∑m(hijyj)∂yi∂yi^=hii
e = y − y ^ V a r ( e ) = V a r ( y − y ^ ) = V a r ( ( I − H ) y ) = ( I − H ) T V a r ( y ) ( I − H ) = σ 2 ( I − H ) e=y-\hat{y}\\Var(e)=Var(y-\hat{y})=Var((I-H)y)=(I-H)^TVar(y)(I-H)=\sigma ^2(I-H) e=y−y^Var(e)=Var(y−y^)=Var((I−H)y)=(I−H)TVar(y)(I−H)=σ2(I−H)
得到 V a r ( e i ) = ( 1 − h i i ) σ 2 Var(e_i)=(1-h_{ii})\sigma^2 Var(ei)=(1−hii)σ2
显然,
h
i
i
h_{ii}
hii越大,噪声越小
经过上面的分析可以知道,
h
i
i
=
x
i
T
(
X
T
X
)
−
1
x
i
h_{ii}=x_i^T(X^TX)^{-1}x_i
hii=xiT(XTX)−1xi
这里的意义在哪里呢,先理解 y ^ = X ( X T X ) X T y \hat{y}=X(X^TX)X^Ty y^=X(XTX)XTy的意义
S
V
D
(
X
)
=
U
Σ
V
T
SVD(X) = U\Sigma V^T
SVD(X)=UΣVT,U代表X的列空间,V代表了行空间
y
=
y
^
+
y
⊥
C
o
l
(
X
)
y = \hat{y}+y\perp Col(X)
y=y^+y⊥Col(X),y分解平行与列空间
C
o
l
(
X
)
Col(X)
Col(X)和正交于
C
o
l
(
X
)
Col(X)
Col(X)的部分
y
^
\hat{y}
y^属于
C
o
l
(
X
)
Col(X)
Col(X),
r
=
R
a
n
k
(
X
)
r=Rank(X)
r=Rank(X),则可以表示为
y
^
=
∑
i
=
1
r
α
i
u
i
\hat{y}=\sum_{i=1}^r\alpha_iu_i
y^=∑i=1rαiui
经过
X
T
y
X^Ty
XTy,发生两个作用
- X T y X^Ty XTy 的意义在于去掉y中属于 X T X^T XT的NULL空间的成分
- y中不同的特征向量成分经过不同的拉伸,导致
y
^
\hat{y}
y^变形,为了克服这个问题,加入了
X
(
X
T
X
)
−
1
X(X^TX)^{-1}
X(XTX)−1,作为逆变换,将拉伸的部分还原回去。
展开下式就明白了
X ( X T X ) − 1 X T = U Σ V T ( V Σ − 2 V T ) V Σ U T = U [ I r 0 0 0 ] U T X(X^TX)^{-1}X^T=U\Sigma V^T(V\Sigma^{-2}V^T)V\Sigma U^T=U\begin{bmatrix} I_r & \mathbf{0} \\ \mathbf{0} & \mathbf{0} \end{bmatrix}U^T X(XTX)−1XT=UΣVT(VΣ−2VT)VΣUT=U[Ir000]UT
就是保留平行于 C o l ( X ) Col(X) Col(X)的成分,同时不做拉伸
再看看
h
i
i
=
x
i
T
(
X
T
X
)
−
1
x
i
h_{ii}=x_i^T(X^TX)^{-1}x_i
hii=xiT(XTX)−1xi
类似地,有
x
i
=
∑
i
=
1
r
θ
i
v
i
x_i=\sum_{i=1}^r\theta_iv_i
xi=∑i=1rθivi
h
i
i
=
x
i
T
(
V
Σ
−
2
V
T
)
x
i
h_{ii}=x_i^T(V\Sigma^{-2}V^T)x_i
hii=xiT(VΣ−2VT)xi
假设
p
=
∣
∣
x
i
∣
∣
=
s
q
r
t
(
∑
i
=
1
r
θ
i
2
)
p=||x_i||=sqrt(\sum_{i=1}^r\theta_i^2)
p=∣∣xi∣∣=sqrt(∑i=1rθi2)
h
i
i
=
∑
i
=
1
r
(
θ
i
/
λ
i
)
2
h_{ii}=\sum_{i=1}^r(\theta_i/\lambda_i)^2
hii=i=1∑r(θi/λi)2
λ
1
2
>
=
⋯
>
=
λ
r
2
\lambda_1^2>=\cdots>=\lambda_r^2
λ12>=⋯>=λr2为X的奇异值
可以发现,令
θ
i
\theta_i
θi变大后,会导致p变大,
h
i
i
h_{ii}
hii也会变大,只是变得幅度跟对应的
λ
i
\lambda_i
λi成反比。得出的结果是,在主成分方向,由于
λ
i
\lambda_i
λi比较大,
h
i
i
h_{ii}
hii变大的幅度比较慢,反之,变化较快。
studentized residual
t
i
=
e
i
σ
^
1
−
h
i
i
t_i=\frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}
ti=σ^1−hiiei
可见,具有大的
h
i
i
h_{ii}
hii的样本具有放大残差的能力。所以为了减少总体的残差了,模型偏向于去减少这些样本的残差,从而导致了所谓杠杆效应。
参考
https://en.wikipedia.org/wiki/Leverage_(statistics)
https://www.zhihu.com/question/36224636/answer/66618532