STAT315 杠杆点(leverage)、异常值(outliers)和影响力(Influence)

概念

杠杆点(Leverage):

  • 杠杆点是指观测数据中解释变量(即自变量x)的值非常极端的情况。这些极端值可以是特别高或者特别低。
  • 如果一个数据点的杠杆值很大,它对回归模型的影响也很大。这是因为杠杆值较大的观测点会对拟合出的回归线的斜率和截距有更大的影响。
  • 杠杆点通过减少残差的方差来增加其对回归线的影响。

异常值(Outliers):

  • 异常值是指那些在因变量y上的值与其它数据点的整体趋势不一致的数据点。简单来说,如果大多数数据都在回归线的周围,而有一个点远离这个区域,那它可能就是一个异常值。
  • 异常值可能不会对回归线产生很大影响,除非它们也具有高杠杆值。

影响力(Influence):

  • 如果一个数据点不仅是异常值,而且具有高杠杆值,它就可能是一个有影响力的点。这意味着这个点不仅y值异常,而且由于x值的极端,它对回归模型产生了重大影响。
  • 有影响力的数据点会影响回归分析的结果,包括预测的响应值和回归系数。

例子


这张散点图展示了y与x的关系,并且标出了一个红色的数据点,这个点的y值与其他点相比显得异常高,因此它被标记为异常值(outlier)。不过,这个红色的点虽然是异常值,但不具有影响力。在统计学中,一个有影响力的观测值指的是它在回归分析中能显著改变回归系数的估计。

要检查一个异常值是否具有影响力,我们通常考虑以下几个步骤:

  1. 杠杆值(Leverage): 对于简单线性回归,杠杆值高的观测点通常是x值非常高或者非常低的点。在这个图中,红色点的x值并不极端,所以它的杠杆值可能不高。
  2. 学生化残差(Studentized Residuals): 如果残差除以其标准误差后的值非常大(绝对值大于2或3),则认为是异常值。这个红色点的残差(实际值与拟合值的差)可能相当大。
  3. Cook的距离(Cook’s Distance): Cook的距离是一个衡量观测值影响回归系数估计的统计量。如果Cook的距离大于1,通常被认为该观测点是有影响力的。
  4. DFFITS值: 这是一个影响统计量,它量化了一个观测值被删除后,拟合值会发生多大变化。通常有一个阈值来判断何时DFFITS值显著大,表明一个点是有影响力的。
  5. DFBETAS值: 这是评估单个观测值对回归系数估计影响的统计量。如果DFBETAS值对于任何系数绝对值大于2除以sqrt(n),其中n是样本大小,这可能表明观测值对该系数的估计有较大的影响。


这张散点图描绘了一个红色的数据点,根据PPT的文字描述,“The red data point is not an outlier, it has leverage, but it is not influential.” 这表示,尽管这个点在x轴上有较远的位置(即高杠杆值),它对回归模型的影响并不大。

解释如下:

  1. 杠杆值(Leverage):由于红色点在x轴的值比其他所有数据点都要大,它位于独立变量(x)的值域的一个极端,因此它有高杠杆值。在散点图中,x值较大的点会对回归线的斜率有较大的潜在影响,因为它们可以拉长回归线,使其通过该点。
  2. 异常值(Outliers):异常值通常是在y轴上有显著不同于其他数据点的趋势的点。这个红色点在y轴上虽然高于其他点,但并不远离可能的回归线。因此,它不是y轴上的异常值。
  3. 影响力(Influence):一个点即使有高杠杆值,也可能不具影响力,这取决于它是否会显著改变回归线的拟合。影响力可以通过之前提到的统计量(如Cook的距离、DFFITS和DFBETAS值)来衡量。如果这些统计量的值不高,这表明尽管该点有高杠杆值,但它对回归模型的参数估计没有显著影响。


在这张散点图上,红色数据点被描述为一个异常值,它同时具有影响力和杠杆力。

  • 异常值(Outlier): 红色点在y轴上的位置比基于其他数据点预测的值要高得多,这表明它在因变量y上是一个异常值。它没有跟随其他数据点的总体趋势。
  • 影响力(Influence): 该点被认为具有影响力,意味着它能够显著改变回归线的斜率和截距。这是由于它的y值与回归模型的预测值相差很大,从而影响回归线以适应这个点,尤其是当这个点还具有高杠杆值时。
  • 杠杆值(Leverage): 尽管这个点在x轴上的位置并不极端(不是最高或最低),但相对于其他所有数据点,它还是比较靠右的,因此它具有一定的杠杆力。杠杆力的高低取决于数据点在x轴上的位置是否远离其他点的中心(中心趋势或平均值)。

在这个例子中,即使红色点的x值没有超过数据集的范围,但结合其在y上的异常高值,它可能对回归模型的参数估计产生较大影响。要确认这个点是否真的影响了回归线,我们可以通过计算诸如Cook的距离、DFFITS或DFBETAS等诊断统计量来具体分析。这些值如果超出常用的阈值,就能证明这个点是有影响力的。
因此,这个红色数据点可能需要在分析过程中特别注意。在实践中,我们可能需要考虑是否从数据集中删除这个点,或者进行其他的数据变换或加权,以减少它对整体模型的影响。

  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值