异常检测：Leverage of observation

最新推荐文章于 2024-06-17 09:35:55 发布

billy145533

最新推荐文章于 2024-06-17 09:35:55 发布

阅读量1k

点赞数 1

分类专栏：数据科学文章标签：异常检测杠杆 leverage

本文链接：https://blog.csdn.net/billy145533/article/details/107012811

版权

数据科学专栏收录该内容

38 篇文章 8 订阅

订阅专栏

Leverage杠杆是一个指标，描述了样本对模型的影响程度
高杠杆点本质是一种离群点，但是它不同于普通离群点，和拟合直线比较远，而是离开群体远，却在拟合直线附近。为了，拟合得更好，拟合直线需要靠近这点以减少拟合误差。这样导致了直线偏离了其他的点，这点相当于一个支点。个人认为这是杠杆的由来。

$X\beta+\epsilon,X\in \mathbb{R}^{m \times n},y \in \mathbb{R}^{m \times 1},\epsilon \sim N(0,\sigma^2)\\\hat{\beta}=(X^TX)^{-1}X^Ty$
$\hat{y}=X\hat{\beta}=X(X^TX)^{-1}X^Ty=Hy=\sum_{i=1}^m(h_{ci}y_i)$
$H$ 是正交投影矩阵，符合 $H^2=H$ , $h_{ci}$ 表示H的第i列，类似地，用 $h_{ri}^T$ 表示H的第i行, $h_{ij}$ 表示H的一个元素

$h_{i,j}=x_i^T(X^TX)^{-1}x_j$ ，反应了样本i和样本j之间的影响

$\hat{y_i}=h_{ri}^Ty=\sum_{j=1}^m(h_{ij}y_j)\\\frac{\partial \hat{y_i}}{\partial y_i}=h_{ii}$

$e=y-\hat{y}\\Var(e)=Var(y-\hat{y})=Var((I-H)y)=(I-H)^TVar(y)(I-H)=\sigma ^2(I-H)$

得到 $Var(e_i)=(1-h_{ii})\sigma^2$

显然, $h_{ii}$ 越大，噪声越小
经过上面的分析可以知道， $h_{ii}=x_i^T(X^TX)^{-1}x_i$

这里的意义在哪里呢，先理解 $\hat{y}=X(X^TX)X^Ty$ 的意义

$U\Sigma V^T$ ，U代表X的列空间，V代表了行空间
$\hat{y}+y\perp Col(X)$ ，y分解平行与列空间 $C o l (X)$ 和正交于 $C o l (X)$ 的部分
$\hat{y}$ 属于 $C o l (X)$ ， $r = R a n k (X)$ ,则可以表示为 $\hat{y}=\sum_{i=1}^r\alpha_iu_i$
经过 $X^Ty$ ，发生两个作用

$X^Ty$ 的意义在于去掉y中属于 $X^T$ 的NULL空间的成分
y中不同的特征向量成分经过不同的拉伸，导致 $\hat{y}$ 变形，为了克服这个问题，加入了 $X(X^TX)^{-1}$ ，作为逆变换，将拉伸的部分还原回去。
展开下式就明白了
$X(X^TX)^{-1}X^T=U\Sigma V^T(V\Sigma^{-2}V^T)V\Sigma U^T=U\begin{bmatrix} I_r & \mathbf{0} \\ \mathbf{0} & \mathbf{0} \end{bmatrix}U^T$
就是保留平行于 $C o l (X)$ 的成分，同时不做拉伸

再看看
$h_{ii}=x_i^T(X^TX)^{-1}x_i$
类似地，有 $x_i=\sum_{i=1}^r\theta_iv_i$

$h_{ii}=x_i^T(V\Sigma^{-2}V^T)x_i$
假设 $p=||x_i||=sqrt(\sum_{i=1}^r\theta_i^2)$
$h_{ii}=\sum_{i=1}^r(\theta_i/\lambda_i)^2$
$\lambda_1^2>=\cdots>=\lambda_r^2$ 为X的奇异值

可以发现，令 $\theta_i$ 变大后，会导致p变大， $h_{ii}$ 也会变大，只是变得幅度跟对应的
$\lambda_i$ 成反比。得出的结果是，在主成分方向，由于 $\lambda_i$ 比较大， $h_{ii}$ 变大的幅度比较慢，反之，变化较快。
studentized residual