数据库中的数据由于各种原因常常会包含一些异常记录,对这些异常记录的检测和解释有很重要的意义。异常检测目前在入侵检测、工业损毁检测、金融欺诈、股票分析、医疗处理等领域都有着比较好的实际应用效果。异常检测的实质是寻找观测值和参照值之间有意义的偏差。离群点检测是异常检测中最常用的方法之一,是为了检测出那些与正常数据行为或特征属性差别较大的异常数据或行为
离群点的概念
离群点(Outlier)是指显著偏离一般水平的观测对象。离群点检测(或称异常检测)是找出不同于预期对象行为的过程。离群点的本质仍然是数据对象,但它与其他对象又显著差异,又被称为异常值
在上图中,大部分数据对象大致符合同一种数据产生机制,而区域R中的对象分布明显不同,不太可能与大部分数据对象符合同一种分布,因此在该数据集中,R中的对象是离群点
离群点不同于噪声数据。噪声是指被观测数据的随机误差或方差,观测值是真实数据与噪声的混合。而离群点属于观测值,既可能是真实数据产生,也有可能由噪声带来,许多数据分析和数据挖掘任务在离群点检测之前都要删除噪声
离群点的产生主要有以下原因
1. 第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于同一总体
2. 第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体
因此 在检测离群点时,要找到离群点产生的原因,通常的做法是在正常数据上进行各种假设,然后证明检测到的离群点