线性回归异常值分析之—高杠杆点、离群点、强影响点

IVHHH

已于 2023-05-31 15:46:58 修改

阅读量1.9w

点赞数 51

文章标签：机器学习算法数据挖掘

于 2021-03-18 11:30:06 首次发布

本文链接：https://blog.csdn.net/weixin_41187013/article/details/114968470

版权

对于一组数据拟合模型时，我们希望保持拟合结果不要过度依赖于一个或几个观测，于是我们想知道这种点是否存在。离群点、高杠杆点、强影响点，都是数据观测中常见的异常数据形式，下面分别从概念，检测方法和处理方法三方面来谈论。

一概念

———————————————————————————————————————————

1.高杠杆点

X空间中的异常值，被称为高杠杆点，即其有异常的X值，X取值远离X均值。高杠杆点可能影响模型的性质，但并不是所有的高杠杆点都会影响回归系数；但可以确定的是，它对模型的汇总统计量（比如R方和回归系数的标准误差）或预测值有非常大的影响。

上图中的红色点，是一个高杠杆值的例子，其X值远离X的取值空间；

同时，该点离回归趋势线不远，因此不是离群点；

虚线和实线分别是包含红点在内和不包含红点在内训练出来的回归模型。可以看到，两条回归线之间相差不大，因此，高杠杆点不一定会显著影响模型系数的拟合结果。

2.离群点

有异常Y值的观测值被称为离群点，由于其Y值远离拟合方程，该观测值的标准化残差通常较大；因为标准化残差近似服从均值为0，方差为1的正态分布，通常标准化残差的绝对值大于2或3时，即可判断该观测值为离群点。离群点根据其在X空间中的位置不同，可以对回归模型有从中等程度到重要程度的影响，使模型不合理，但不一定会显著影响模型系数的拟合结果。对于离群点，应找出其行为异常的原因，对于错误的度量、不正确的数据记录、测量工具的错误等原因，应修正或删除离群点，但舍弃离群点之前应当有强有力的非统计证据证明离群点是错误值；如果离群点是异常但合乎实际情况的产物，剔除这些点以改善模型质量

上图中的红色点，x值取值在正常范围内，接近X空间均值，但Y值远离相似X分布对应的Y分布均值；因此该点是离群点。

上图中红色实线表示包含红点值拟合的模型趋势线；红色虚线表示不包含红点值拟合的模型趋势线；虽然去掉该点后拟合的模型变化不算明显，但该点处的残差较大，明显大于其他点对应的残差。

3.强影响点

强影响点指对模型的系数有显著影响的点，若该点被被单独删除或与其他几个点被一起删除，会导致拟合模型的实质性变化，如系数估计值、拟合值、t检验值等，则该点为强影响点；强影响点通常是一个数据集的少数点，但却对模型的系数与性质施加了不成比例的影响，这对模型是一种不利的情况；因此要找出这些点，并对这些强影响点对模型的影响进行评定；如果这些强影响点的值是错误的或有问题的，那应当将其从样本中清除，但如果其并不存在错误，但他们对模型最终使用结果影响较大，仍然需要了解这些点。