异常值识别和处理

1.识别异常值

1.1业务法

根据你对业务的理解,然后对每一个指标设定一个合理的范围,一旦超过这个范围,则认为是异常值。比如收入,一般来说都是正数,如果出现小于0,则认为是异常值;再比如年龄,正常的年龄可能在100以内,如果出现年龄是好几百的,那么也认为是异常值。

1.23σ原则

3σ原则中的σ是代表标准差,3σ也就是标准差,如果数据与均值之间的绝对距离大于3倍标准差,即下图中[-∞,μ-3σ]和[μ+3σ,+∞]部分,我们把这一部分值称为是异常值。
在这里插入图片描述

在用3σ原则时,数据要尽可能的服从正态分布,因为只有满足正态分布时,才认为出现3倍标准差以外数据的可能性很小,所以才会把这一部分当作异常值。

1.3箱形图

箱形图就是如下图所示,会展示数据的上下界、上下四分位数、中位数、均值,我们把超过上下界的值称为异常值。分位数大家应该都知道怎么算,但是上下界怎么算出来的呢?

上界 =上四分位数 + k(上四分位数 - 下四分位数)
下界 =下四分位数 - k(上四分位数 - 下四分位数)
当k=1.5时表示中度异常;当k=3时表示高度异常。箱形图中默认k=1.5。

在这里插入图片描述
2.异常值处理

通过上面识别异常值的方法我们就可以把数据中的异常值找出来,那找出异常值以后该怎么办呢?常规的异常值处理有如下几种方法:

将异常值删除,比如一个人的年龄是异常值,那么就把这个人从数据中删除;
将异常值当作缺失值进行替换,用0或者平均值进行替换

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值