异常检测
一、基本概念
从定义而言就是一种识别不正常情况与挖掘非逻辑数据的技术,也叫outliers。通俗的理解异常检测就是,有一堆数据,数据中有正常的数据也有异常的数据。异常检测就需要将数据中所有异常的数据检测出来。
1.1 三种异常检测的训练设定
1.Supervised: 训练数据集是有标注的,分为正常和异常。此训练方式默认了WDAD假设,认为标定的数据能够描摹出异常的分布。
2.Clean: 所有的训练集都是正常的,测试集中包含有正常和异常的,需要把异常点找出来。默认的是异常和正常的分布有较大的差别,所以能够通过分布的差异来判定。
3.Unsupervised:训练是混合正常和异常点的,没有标注的。其本质上就是聚类,认为异常就是outlier, 距离聚类中心较远的点。
(注:WDAD假设认为异常已经被一个充分定义的分布所描绘,也就是在充足的数据集下,我们应该能找到这个数据集的分布,并把这种异常给发现。)