一、 什么是离群点分析
1 、什么是离群点?
在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点。
2 、离群点产生的原因?
第一, 计算的误差或者操作的错误所致,比如:某人的年龄 -999 岁,这就是明显由误操作所导致的离群点;
第二, 数据本身的可变性或弹性所致,比如:一个公司中 CEO 的工资肯定是明显高于其他普通员工的工资,于是 CEO 变成为了由于数据本身可变性所导致的离群点。
3 、为什么要对离群点进行检测?
“一个人的噪声也许是其他的信号”。换句话说,这些离群点也许正是用户感兴趣的,比如在欺诈检测领域,那些与正常数据行为不一致的离群点,往往预示着欺诈行为,因此成为执法者所关注的。
4 、离群点检测遇到的困难?
第一, 在时间序列样本中发现离群点一般比较困难,因为这些离群点可能会隐藏在趋势、季节性或者其他变化中;
第二, 对于维度为非数值型的样本,在检测过程中需要多加考虑,比如对维度进行预处理等;
第三, 针对多维数据,离群点的异常特征可能是多维度的组合,而不是单一维度就能体现的。
二、 几类离群点检测方法
1 、基于统计分布的离群点检测
这类检测方法假设样本空间中所有数据符合某个分布或者数据模型,然后根据模型采用不和谐校验( discordancy test )识别离群点。不和谐校验过程中需要样本空间数据集的参数知识( eg: 假设的数据分布),分布的参数知识( eg: 期望和方差)以及期望的离群点数目。
不和谐校验分两个过程:工作假设和备选假设
工作假设指的是如果某样本点的某个统计量相对于数据分布的是显著性概率充分小,那么我们则认为该样本点是不和谐的,工作假设被拒绝,此时备用假设被采用,它声明该样本点来自于另一个分布模型。
如果某个样本点不符合工作假设,那么我们认为它是离群点。如果它符合备选假设,我们认为它是符合某一备选假设分布的离群点。
基于统计分布的离群点检测的缺点:
第一, 在于绝大多数不和谐校验是针对单个维度的,不适合多维度空间;
第二, 需要预先知道样本空间中数据集的分布特征,而这部分知识很可能是在检测前无法获得的。
2 、基于距离的离群点检测
基于距离的离群点检测指的是,如果样本空间 D 中至少有 N 个样本点与对象 O 的距离大于 dmin, 那么称对象 O 是以 { 至少 N 个样本点 } 和 dmin 为参数的基于距离的离群点。
其实可以证明,在大多数情况下,如果对象 O 是根据基于统计的离群点检测方法发现出的离群点,那么肯定存在对应的 N 和 dmin ,是它也成为基于距离的离群点。
Eg: 假设标准正态分布,如果离均值偏差 3 或更大的对象认为是离群点,根据正态曲线概率密度函数, P ( |x-3|<=dmin ) <1-N/ 总点数,即 P ( 3-dim=<x<=3+dmin ) <1-N/ 总点数,假设 dmin=0.13, 则该 dmin 领域表示 [2.87,3.13] 的范围,假设总点数 =10000, N=12.
基于距离的离群点检测的缺点 :
要求数据分布均匀,当数据分布非均匀时,基于距离的离群点检测将遇到困难。
3 、基于密度的局部离群点检测
什么是局部离群点?
一个对象如果是局部离群点,那么相对于它的局部领域,它是远离的。
不同于前面的方法,基于密度的局部离群点检测不将离群点看做一种二元性质,即不简单用 Yes or No 来断定一个点是否是离群点,而是用一个权值来评估它的离群度。
它是局部的,意思是该程度依赖于对象相对于其领域的孤立情况。这种方法可以同时检测出全局离群点和局部离群点。
通过基于密度的局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现离群点。
4 、基于偏差的离群点检测