【数据异常校验】格拉布斯准则(Grubbs Criterion)处理数据异常

简介

Grubbs测试(以1950年发表测试的Frank E. Grubbs命名),也称为最大归一化残差测试极端学生化偏差测试,是一种统计测试,用于检测假设的单变量数据集中的异常值来自正常分布的人口。

 

定义

格拉布斯的测试基于正态假设。也就是说,在应用Grubbs测试之前,应首先验证数据是否可以通过正态分布合理地近似。

格拉布斯的测试一次检测到一个异常值。从数据集中删除该异常值,并且迭代测试直到没有检测到异常值。但是,多次迭代会改变检测概率,并且测试不应该用于六个或更少的样本大小(n>6),因为它经常将大多数点标记为异常值。

 

Grubbs测试是根据假设定义的:

H_{0}:数据集中没有异常值

H_{a}:数据集中只有一个异常值

 

公式

G = {\ frac {\ displaystyle \ max _ {​{i = 1ï¼\ ldotsï¼N}} \ left \ vert Y_ {i}  -  {\ bar {Y}} \ right \ vert} {s}}

 {\ overline {Y}} 和 小号分别表示样本均值标准差

Grubbs检验统计量是样本标准差的单位与样本均值的最大绝对偏差。

这是测试的双边版本。

 

Grubbs测试也可以定义为单侧测试

要测试最小值是否为异常值

公式:

G = {\ frac {​{\ bar {Y}}  -  Y _ {\ min}} {s}}

要测试最大值是否为异常值

公式:

G = {\ frac {Y _ {\ max}  -  {\ bar {Y}}} {s}}

 

Y_{min}表示最小值。

Y_{max}表示最大值。

 

 

对于双边测试,没有异常值的假设在显著级别a级被拒绝

G> {\ frac {N-1} {​{\ sqrt {N}}}} {\ sqrt {​{\ frac {t _ {​{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}} {N -2 + t _ {​{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}}}}}

t_{a/(2N),N-2)}表示的上临界值的的t分布N - 2 自由度和 显着性水平a/(2N)。对于单侧检验,用a/N代替a/(2N)。

t分布可用于构建真实均值的置信区间

 

缺点

格拉布斯和和狄克逊法均给出了严格的结果,但存在狄克逊法同样的缺陷。

 

优化

朱宏等人采用数据值的中位数取代平均值,改进得到了更为稳健的处理方法,有效消除了同侧异常值的屏蔽效应。

国际上常推荐采用格拉布斯准则法。

 

参考:https://en.wikipedia.org/wiki/Grubbs%27_test_for_outliers

 

  • 4
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值