【数据异常校验】格拉布斯准则（Grubbs Criterion）处理数据异常

最新推荐文章于 2024-06-22 16:12:53 发布

ChenVast

最新推荐文章于 2024-06-22 16:12:53 发布

阅读量3.1w

点赞数 4

分类专栏： Big Data Analysis 数据科学文章标签：格拉布斯准则 Grubbs Criterion 数据异常处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenvast/article/details/82796657

版权

数据科学同时被 2 个专栏收录

75 篇文章 14 订阅

订阅专栏

Big Data Analysis

57 篇文章 30 订阅

订阅专栏

简介

Grubbs测试（以1950年发表测试的Frank E. Grubbs命名），也称为最大归一化残差测试或极端学生化偏差测试，是一种统计测试，用于检测假设的单变量数据集中的异常值来自正常分布的人口。

定义

格拉布斯的测试基于正态假设。也就是说，在应用Grubbs测试之前，应首先验证数据是否可以通过正态分布合理地近似。

格拉布斯的测试一次检测到一个异常值。从数据集中删除该异常值，并且迭代测试直到没有检测到异常值。但是，多次迭代会改变检测概率，并且测试不应该用于六个或更少的样本大小(n>6)，因为它经常将大多数点标记为异常值。

Grubbs测试是根据假设定义的：

$H_{0}$ ：数据集中没有异常值

$H_{a}$ ：数据集中只有一个异常值

公式

$G = {\ frac {\ displaystyle \ max _ {{i = 1ï¼\ ldotsï¼N}} \ left \ vert Y_ {i} - {\ bar {Y}} \ right \ vert} {s}}$

${\ overline {Y}}$ 和 $小号$ 分别表示样本均值和标准差。

Grubbs检验统计量是样本标准差的单位与样本均值的最大绝对偏差。

这是测试的双边版本。

Grubbs测试也可以定义为单侧测试。

要测试最小值是否为异常值

公式：

$G = {\ frac {{\ bar {Y}} - Y _ {\ min}} {s}}$

要测试最大值是否为异常值

公式：

$G = {\ frac {Y _ {\ max} - {\ bar {Y}}} {s}}$

$Y_{min}$ 表示最小值。

$Y_{max}$ 表示最大值。

对于双边测试，没有异常值的假设在显著级别a级被拒绝

$G> {\ frac {N-1} {{\ sqrt {N}}}} {\ sqrt {{\ frac {t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}} {N -2 + t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}}}}}$

$t_{a/(2N),N-2)}$ 表示的上临界值的的t分布与N - 2 自由度和显着性水平a/(2N)。对于单侧检验，用a/N代替a/(2N)。

t分布可用于构建真实均值的置信区间。

缺点

格拉布斯和和狄克逊法均给出了严格的结果，但存在狄克逊法同样的缺陷。

优化

朱宏等人采用数据值的中位数取代平均值，改进得到了更为稳健的处理方法，有效消除了同侧异常值的屏蔽效应。

国际上常推荐采用格拉布斯准则法。

参考：https://en.wikipedia.org/wiki/Grubbs%27_test_for_outliers

关注

4
点赞
踩
41

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。