异常检测的目的是发现与大部分其他对象不同的对象。通常,异常对象被称作为离群点,因为在数据的散布图中,他们远离其他数据点。也通常被称为偏差检测,因为异常对象的属性值明显偏离期望值的或常见的属性值。异常检测也成为例外挖掘,因为异常在某种意义上是例外的。
异常检测方法
基于模型的技术
许多异常检测的技术是首先建立一个模型。异常是那些同模型不能完美拟合的对象。如果使用回归模型,异常就是相对远远离预测值的对象。如果使用分类模型,异常对象和正常对象可以被定义为两个类。
基于邻近度的技术
通常可以在对象之间定义邻近性度量,并且许多异常检测方法都基于邻近度。而异常的对象就是那些远离大部分其他对象的对象。由于邻近度的衡量通常都是基于距离的,所以那些基于距离的检测又被称为基于距离的离群点检测技术。
一般基于邻近度的犯法一般需要