什么时候我们需要异常点检测算法呢?常见的有三种情况。一是在做特征工程的时候需要对异常的数据做过滤,防止对归一化等处理的结果产生影响。二是对没有标记输出的特征数据做筛选,找出异常的数据。三是对有标记输出的特征数据做二分类时,由于某些类别的训练样本非常少,类别严重不平衡,此时也可以考虑用非监督的异常点检测算法来做。
一、异常值定义
在数据科学项目、统计分析、机器学习应用中检测异常值非常重要;
异常值,也称离群值,是指样本中的个别值,其数值明显偏离所属样本的绝大部分观测值。
异常值可以分成两种:单变量(Univariate) 和多变量(Multivariate)
二、导致异常值的原因
两大类原因:人为原因(Non-natural) 和自然原因(Natural )。
人为原因(Non-natural):比如常见的数据输入错误、处理错误、抽样误差等
详细地了解各种类型的异常值:
-
数据输入错误:人为错误,例如在数据收集、记录或输入过程中引起的错误,可能会导致数据出现异常值。例如:客户的年收入为 100,000 美元却输成1,000,000 美元。
-
测量误差&