数据分析及应用:如何分析基于绝对中位差的异常值检测问题?

目录

0 场景描述

1 数据准备 

2 问题分析

 abs(rn - (cnt+1)/2) < 1

3 小结


0 场景描述

数据集中可能存在异常的值。值存在异常有多种原因:

  • (1)可能是数据收集方式有问题,比如记录值的仪表存在误差;
  • (2)可能是数据输入错误导致的;
  • (3)还可能是因为数据生成时环境出现异常,这意味着数据点是正确的,但应谨慎根据数据得出任何结论。

鉴于此,我们想检测出异常数据。一种检测异常数据的常用方法是,计算数据的标准偏差,并将超过3 倍标准偏差(或其他类似距离)的数据点视为异常数据。

在统计学中,我们把这种检测异常值的方式称为 中位数绝对偏差(Median Absolute Deviation,MAD) 的方法,可以用来识别异常值并将其排除在外。MAD是一种基于中位数的离散度量,它可以帮助识别数据集中的异常值。

公式如下: 

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值