异常数据4种剔除方法_数据预处理方法的研究——粗大误差的剔除

博客介绍了粗大误差的剔除方法,粗大误差对应的测量值为异常值,需剔除。常用判别方法有格鲁布斯准则、3σ准则、狄克松准则和罗曼诺夫斯基准则。不同准则适用场景不同,且判别可靠性有限,实际监测中剔除的可疑值应保留。还给出了桥梁监测中不同数据的处理准则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

粗大误差的剔除

粗大误差表现的是与测量结果真值明显的偏离,包含它的测量值叫异常值,必须先将它们全部剔除。问题的关键是如何在测量值中找出可疑的异常值。粗大误差判别准则,就是依据数理统计的原理,在一些人为地假设条件下,确立的一些标准,来作为对异常值的取舍判别原则。对粗大误差判别的几种常用方法有:按照正态分布提取统计特征值的格鲁布斯(Grubbs)准则和3σ准则、利用假设检验的办法剔除可疑值的狄克松准则和按t分布的实际误差分布范围来判别粗大误差的罗曼诺夫斯基准则。其中3σ准则适用测量次数较多的测量列,一般测量次数较少的情况下,这种判别准则的可靠性不高,但它使用简便,不需要查表,故在要求不高时经常应用。罗曼诺夫斯基准则是建立在频率近似等于概率的基础上,导致在测量次数比较少的时候也不可靠,并且其计算过程比较复杂,计算量较大,所以一般在对数据处理速度有较高要求的实时监测过程中很少应用。对测量次数较少而要求较高的测量列,应采用格鲁布斯准则或狄克松准则,其中格鲁布斯准则用到了正态分布中反映测量集中与波动的两个重要算

7d57f46f112eac76d518ae40010aad6b.png

显然利用粗大误差判别准则对异常值做出取舍判断,其可靠性不会超出数理统计中假设检验所能达到的水平,它只能是一个比较科学的对可疑值进行取舍的依据,不是绝对可靠和十全十美的。因此,在实际的监测系统中,根据粗大误差判别准则剔除的可疑值,应在数据处理系统中加以保留,以备今后对数据进行研究时查对和参考。在大型桥梁健康监测的实际应用中,数据分析处理系统以一定时间间隔的测量值为样本进行处理后载入到数据仓库,因而对于静态测量数据,其样本点数较少,可以采用格鲁布斯准则判别粗大误差;对于动态测量数据,其样本点数较多,而且往往不在格鲁布斯准则最佳处理状态需求的数据点数内,对于这类数据可以采用3σ准则进行粗差处理。

《来源科技文献,经本人分析整理,以技术会友,广交天下朋友》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值