数据分析 | 异常数据识别小结

1. 定义与使用场景

定义

异常检测,即发现一组数据点中和大多数数据不同的数据点。如果你要去网上搜索英文文献,可以用下面这几个关键字:outlier detection,deviation detection,exception mining或者anomly detecton。但最常用的英语叫法还是outlier detection和anomly detection。
异常检测的方法有很多,基于统计的方法,基于机器学习的方法,基于时间序列的方法等。所有这些方法都是基于一个异常点的稀有性或者与正常数据点的不一致性。异常点或者目标一般都比较稀有,即出现频率低。比如我们说一件事是“万里挑一”,说的就是稀有性。

使用场景

当前异常数据识别的使用场景主要有以下2方面:

  1. 数据分析和数据挖掘在正式分析前的数据处理,识别异常数据后,删除或者修正异常数据,避免异常数据影响分析结论;
  2. 数据去噪:一些异常数据可能会导致数据的期望或者方差等严重偏离正常,利用异常检测方法检测出数据中的噪声通常是数据预处理中很重要的一步。
  3. 风控业务,通过数据识别异常用户、异常访问、异常订单、异常支付等,避免黑产团队入侵。

数据异常的原因

  1. 来自不同类的数据
    一个个体不同于其他个体可能是因为他们的数据源不同,即来自不同的类型或者类别。比如一个盗刷别人的信用卡的用户,跟一个合法的信用卡用户属于两类人。一堆体检男性报告中夹杂着一份女性的体检报告,女性的这份报告的和其他男性报告的本来就是不同的性别。
  2. 自然变异
    很多数据集都满足正态分布,正态分布中,的确会有极其个别样本偏离均值。比如姚明的身高就比一个普通人的身高高几十公分。
  3. 度量和采集造成的异常
    好多数据都是靠仪器和人测量整理的,这难免会有纰漏,比如一个体重秤可能出问题了,那这个秤测量的数据就不靠谱了,或者测量员刚好心情不爽,记录测量数据的时候随便填了一个数。

https://zhuanlan.zhihu.com/p/26001674

2. 单变量数据异常识别

2.1 简单统计量分析

对变量做描述性统计,然后再基于业务考虑哪些数据是不合理的。常用的统计量是最大值和最小值,判断这个变量是否超过合理的范围。例如:用户的年龄为150岁,这就是异常的。

2.2 三倍标准差

定义:如果单变量数据服从正态分布,异常值被定义为与平均值偏差超过3倍标准差的值。
原因:是因为在正态分布的假设下,偏离均值3倍标准差出现的概率小于0.003,是一个小概率事件。
在实际分析中,我们也不一定要拘泥于3倍标准差,可以根据实际严格程度定义,如偏离均值的4倍标准差。

2.3 box-cox转化+3倍标准差

基本介绍

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值