本文是对sklearn 2.7. Novelty and Outlier Detection的一个简单总结。
简介
假设我们有一个数据集,这个数据集中只有两类:正常(又称inliner)和异常(又称outliner)。
怎么就叫正常:
- 占数据集的大多数
- 在各个维度上比较聚集
怎么就叫异常:
- 占少数
- 通常是比较分散
很多场景下我们需要识别正常和异常,即异常检测,特别常见于数据清洗。
异常检测的分类
novelty detection: 训练集中没有异常样本
outlier detection: 训练集中有异常样本
乍一看,novelty detection相对更容易一些,其实不然
让我们再详细看一下novelty detection和outlier detection的区别。
- 它们的关注对象不同。novelty detection认为,所有跟训练集样本类别不同的点都是异常,不论它跟正常样本有多像,也不论它的分布有多聚集;而outlier detection要求更宽松,只有那些分布稀疏且