异常检测 cook distance

最新推荐文章于 2022-12-13 18:40:36 发布

billy145533

最新推荐文章于 2022-12-13 18:40:36 发布

阅读量5k

点赞数 6

分类专栏：数据科学文章标签： cook distance 库克距离

本文链接：https://blog.csdn.net/billy145533/article/details/107039155

版权

数据科学专栏收录该内容

38 篇文章 8 订阅

订阅专栏

前面写了leverage 杠杆的计算以及其意义
主要是为后面的内容做一些铺垫.Cook’s distance起源于提出这个名词的统计学家Cook，用于删除一个样本后，对模型的影响。
假设有如下模型
${\mathbf{y}}= {\mathbf{X}}{{\beta}}+\epsilon,X \in \mathbb{R}^{m \times p}$
$\hat{\beta}= (X^TX)^{-1}X^Ty\Rightarrow \hat{y}=X\hat{\beta}$
$X_{(-i)},y_{(-i)}$ 表示从原来数据中去掉第i行数据
$\hat{\beta_{(-i)}}=(X_{(-i)}^TX_{(-i)})^{-1}X_{(-i)}^Ty\Rightarrow\hat{y}_{(-i)}=X\hat{\beta}_{(-i)}$
$e=y-\hat{y}\Rightarrow s^2=(y-\hat{y})^T(y-\hat{y})/(n-p)=\frac{e^Te}{n-p}$
n-p表示自由度，显然，这个公式不适合n<=p的情况，对于高维的情况可以参考相应的扩展版。
对第i个样本的cook距离表示如下
$D_i=\frac{(\hat{y}_{(-i)}-\hat{y})^T(\hat{y}_{(-i)}-\hat{y})}{ps^2}=\frac{(\hat{\beta_{(-i)}}-\hat{\beta})^TX^TX(\hat{\beta_{(-i)}}-\hat{\beta})}{ps^2}$

上式的变量的平方和，让人很容易想起卡方分布 $\mathcal{X^2}$ 。
两个卡方的相除又让人想到方差齐性检测 $F(p,m-p,1-\alpha)$ 分布，这是 $D_i$ 的主要意义所在。利用了分布的概率 $D_i<=F(p,m-p,1-\alpha)$ 去估计样本的异常情况，显然更加科学，有技术含量。

从表面上看，如果要实现这个功能，需要借助留一法去处理，显然这样做会带来很大的运算量，使得算法的实现变得困难。借助以下公式，使得运算简单
$\hat{\beta}-\hat{\beta}_{{-i}}=\frac{(X^TX)^{-1}x_i}{1-v_i}(y_i-x_i^T\hat{\beta})$
这里， $x_i$ 表示第i个样本，即X的第i行。 $v_i=x_i^T(X^TX)^{-1}x_i$
简略证明如下：
我们对X做行交换，y做相应的变换，是不会影响 $\beta$ 的估计。因此，有
$X=\begin{bmatrix} X_{(-i)}\\ x_i^T \end{bmatrix},y=\begin{bmatrix} y_{(-i)}\\ y_i \end{bmatrix}$

由于 $\begin{bmatrix} x_1^T\\ \cdots\\ x_m^T \end{bmatrix}$ ，得到
$X^TX=[x_1,\cdots,x_m]\begin{bmatrix} x_1^T\\ \cdots\\ x_m^T \end{bmatrix}=\sum_{i=1}^mx_ix_i^T=X_{(-i)}^TX_{(-i)}+x_ix_i^T$

由于 $A + UV')^{-1} = A^{-1} - (A^{-1}UV'A^{-1})/(1 + V'A^{-1}U)$
令 $A =X_{(-i)}^TX_{(-i)}$
$X^TX)^{-1}=(X_{(-i)}^TX_{(-i)}+x_ix_i^T)^{-1}=A^{-1}-A^{-1}x_ix_i^TA^{-1}/(1+x_i^TA^{-1}x_i)$

$X^Ty=\begin{bmatrix} X_{(-i)}\\ x_i^T \end{bmatrix}^T\begin{bmatrix} y_{(-i)}\\ y_i \end{bmatrix}=X_{(-i)}^Ty_{(-i)}+x_iy_i$
令 $w_{i}=x_i^T(A)^{-1}x_i$
$\hat{\beta}=(X^TX)^{-1}X^Ty=A^{-1}X_{(-i)}^Ty_{(-i)}-A^{-1}x_ix_i^TA^{-1}X_{(-i)}^Ty_{(-i)}/(1+x_i^TA^{-1}x_i)+\\ A^{-1}x_iy_i-A^{-1}x_ix_i^TA^{-1}x_iy_i/(1+x_i^TA^{-1}x_i)\\ =(I-A^{-1}x_ix_i^T/(1+w_i))\beta_{(-i)}+A^{-1}x_iy_i/(1+w_i)\\$
由此推得
$x_i^T\hat{\beta}=(x_i^T-w_ix_i^T/(1+w_i))\hat{\beta}_{(-i)}+w_iy_i/(1+w_i)\Rightarrow\\ x_i^T\hat{\beta}=x_i^T\hat{\beta}_{(-i)}/(1+w_i)+y_i-y_i/(1+w_i)\Rightarrow\\ x_i^T\hat{\beta}-y_i=(x_i^T\hat{\beta}_{(-i)}-y_i)/(1+w_i)$

$\hat{\beta}-\hat{\beta}_{(-i)}=A^{-1}x_i(y_i-x_i^T\hat{\beta}_{(-i)})/(1+w_i)=A^{-1}x_i(y_i-x_i^T\hat{\beta})$

由于 $X_{(-i)}^TX_{(-i)}=X^TX-x_ix_i^T$
$X_{(-i)}^TX_{(-i)})^{-1}=(X^TX)^{-1}+(X^TX)^{-1}x_ix_i^T(X^TX)^{-1}/(1-v_i)$
$v_i=x_i^TX^TXx_i$ ，可以推得

$X_{(-i)}^TX_{(-i)})^{-1}x_i=(X^TX)^{-1}x_i+(X^TX)^{-1}x_ix_i^T(X^TX)^{-1}x_i/(1-v_i)\\ =(X^TX)^{-1}x_i/(1-v_i)$
得到
$\hat{\beta}-\hat{\beta}_{(-i)}=\frac{(X^TX)^{-1}x_i}{1-v_i}(y_i-x_i^T\hat{\beta})$
代入 $D_i$ 公式得到
$D_i = (\frac{y_i-x_i^T\hat{\beta}}{s\sqrt{1-v_i}})^2\frac{v_i}{p(1-v_i)}$
可以看出 $D_i$ 考虑了样本i的两部分信息，前者是学生化后的残差，后者反应了该样本的杠杆值