异常点检测是数据挖掘一个重要问题,当前的算法可以简单的分为监督、半监督和无监督的方法。对于存在标签的数据,监督算法是首选(能获得很好的效果),此时异常点检测可以等价于非平衡数据分类问题。但是,实际应用中往往只有正常样本的标签,这时需要无监督方法大显神威。无监督方法也更符合人类的认识行为。比如,一个人从来没有见过斑马,但是在一群马中他也可以很容易辨别出斑马,尽管完全不知道“斑马”是什么物种。
需要注意的是,很多有效的监督方法也是通过有机集成几种无监督方法构建。
HBOS(Histogram-based Outlier Score)是一种原理简单,且通常很有效的无监督算法。该方法为每一个样本进行异常评分,评分越高越可能是异常点。评分模型为:
假设样本p第 i 个特征的概率密度为 ,则p的概率密度可以计算为: