剔除异常值栅格计算器_数据分析师所需的统计学:异常检测

文章介绍了统计学中用于异常检测的3种方法:3Sigma、Numeric Outlier(箱线图法)和Grubbs准则。3Sigma基于正态分布判断异常值,Numeric Outlier利用IQR确定正常区间,而Grubbs准则适用于小数据量的单维度检测。每种方法都有其局限性,如对数据分布和维度的限制。多维度异常检测则提到马氏距离,但同样存在局限。作者根据业务需求选择了前两种方法,并指出统计学方法在处理某些数据时的不足。
摘要由CSDN通过智能技术生成

bb18fb00ca3c43c9655328bc62c578da.png

近期,工作需要试了很多异常检测的方法,统计学和算法相关的都有,所以来总结一下。

在本篇文章主要从原理、python实现、局限的方式讲述以下几种统计学的异常检测的方法:

1、3Sigma

2、Numeric Outlier

3、格拉布斯准则(Grubbs算法)

4、多维度异常检测:马氏距离

1、3igma

原理:

3Sigma又称为拉依达准则,这种判别处理原理及方法仅局限于对正态或近似正态分布的

样本数据处理,原则:

数值分布在(μ-σ,μ+σ)中的概率为0.6827

数值分布在(μ-2σ,μ+2σ)中的概率为0.9545

数值分布在(μ-3σ,μ+3σ)中的概率为0.9973

所以,数据在(μ-3σ,μ+3σ)的概率低于0.01,我们可以称这些数据为异常值。

Python实现:

1、依据历史数据计算出正常区间(μ-3σ,μ+3σ)

2、判断目标数据是否有异常值

#输出正常区间
def ThreeSigmod(value):
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值