数据分析师所需的统计学:异常检测

近期,工作需要试了很多异常检测的方法,统计学和算法相关的都有,所以来总结一下。

在本篇文章主要从原理、python实现、局限的方式讲述以下几种统计学的异常检测的方法:

1、3Sigma

2、Numeric Outlier

3、格拉布斯准则(Grubbs算法)

4、多维度异常检测:马氏距离

 

1、3igma

原理:

3Sigma又称为拉依达准则,这种判别处理原理及方法仅局限于对正态或近似正态分布的

样本数据处理,原则:

数值分布在(μ-σ,μ+σ)中的概率为0.6827

数值分布在(μ-2σ,μ+2σ)中的概率为0.9545

数值分布在(μ-3σ,μ+3σ)中的概率为0.9973

所以,数据在(μ-3σ,μ+3σ)的概率低于0.01,我们可以称这些数据为异常值。

Python实现:

1、依据历史数据计算出正常区间(μ-3σ,μ+3σ)

2、判断目标数据是否有异常值

#输出正常区间
def ThreeSigmod(value):
    #value是单维的历史数据
    avg = np.mean(value)
    std = np.std(value)
    threshold_up = avg + 3*std
    threshold_down = avg -3*std
return [float(threshold_down),float(thr
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值