一.定义:
异常值,即在数据集中存在不合理的值,又称离群点。
二.检验:
(1)简单统计分析:对属性值进行一个描述性(经验)的统计,从而看出哪些值是不合理的。例如年龄,年龄的区间是【0,100】,如果样本中的年龄不在这个区间内,那么这个样本则被视为异常值。
(2)基于高斯分布的异常点检测:根据已有数据集,建立高斯分布的模型,通过新数据和已知分布的差异进行判断是否异常值。
(3)基于标准偏差(3δ原则)的异常值检测(高斯分布差异的一种):一般适用于服从正太分布的数据,即异常值被定义为观测值和平均值的偏差超过3倍标准偏差的值。
P(|x-μ|>3δ) <= 0.003
当数据不服从正太分布的时候,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要经验和实际情况来判定。
(4)箱型图分析
箱型图提供了一个识别异常值的标准,即大于或小于设定的上下界的数值即为异常值。
Q1:上四分位数
Q2:下四分位数

本文总结了异常值的定义及其检验方法,包括简单统计分析、基于高斯分布和标准偏差的原则、箱型图分析、距离判断以及高级算法如LOF和iForest。在处理异常值时,提出了删除、视为缺失值、平均值修正和不处理等策略,强调需视情况决定。
最低0.47元/天 解锁文章
1061

被折叠的 条评论
为什么被折叠?



