孤立点是指数据集中那些小模式数据,它可能是度量或执行错误所导致的, 也可能是固有数据变异性的结果。Hawkins给出了其本质性定义: 孤立点是在数据集中与众不同的数据, 使人怀疑这些数据并非随机偏差, 而是产生于完全不同的机制。一般的孤立点挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的; 二是找到一个有效的方法来挖掘这样的孤立点。
传统的孤立点挖掘算法
目前已有的传统的孤立点挖掘算法主要包括四类算法基于统计的方法,基于距离的方法,基于密度的方法,基于偏离的方法和基于聚类的挖掘算法。
传统的孤立点挖掘算法
目前已有的传统的孤立点挖掘算法主要包括四类算法基于统计的方法,基于距离的方法,基于密度的方法,基于偏离的方法和基于聚类的挖掘算法。