2、异常值(outliers)检测:业务法、Z-score、3σ准则、箱线图

本文介绍了异常值检测的四种方法:业务法根据业务设定合理范围判断;3σ准则适用于正态分布数据,超出μ±3σ的数据视为异常;Z-score通过计算标准分数确定异常值;箱线图利用四分位距IQR确定温和异常值和极端异常值。每种方法都有其适用场景和局限性。
摘要由CSDN通过智能技术生成
1.1、业务法

  根据对业务的理解,然后对每一个指标设定一个合理的范围,一旦超过这个范围,则认为是异常值。比如收入,一般来说都是正数,如果出现小于0,则认为是异常值;再比如年龄,正常的年龄可能在100以内,如果出现年龄是好几百的,那么也认为是异常值。

1.2、3 σ \sigma σ准则

  3 σ \sigma σ准则又称拉依达准则,是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。

   3 σ 准则 3\sigma准则 3σ准则,仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提的。

  在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴,如下图:

在这里插入图片描述

3σ原则为:

  • p(μ-σ<X<μ+σ)中的概率为68.26%
  • p(μ-2σ<X<μ+2σ)中的概率为95.44%
  • p(μ-3σ<X<μ+3σ)中的概率为99.73%

  可以认为,X 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。

1.3、Z-score

  Z-Score也称为标准分数࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值