传统异常值检测
- 图形位置分布
- 例如箱线图检测异常值
- 统计方法检测:假设全量数据服从一定的分布,比如常见的正态分布,泊松分布等;在计算每个点属于这个分布的概率
- 距离检测:假设正常的数据比较集中,有较多的邻居,而异常数据特立独行,常用的有连续特征间的欧氏距离(标准化下的欧氏距离(马氏距离));名义变量下的余弦相似度
Isolation Forest
无监督异常检测(anomaly detection),或者又被称为离群点检测。
- 异常数据分样本中大多数数据不太一样
- 异常数据在整体数据样本中占比比较小
异常数据的不同,可以利用各种统计的、距离的、密度的量化指标去描述数据样本跟其他样本的疏离程度
孤立森林算法是一种适用于连续数据的无监督异常检测方法。与其他异常检测算法通过距离、密度等量化指标来刻画样本间的疏离程度不同,孤立森林算法通过对样本点的孤立来检测异常值。具体来说,该算法利用一种名为孤立树iTree的二叉搜索树结构来鼓励样本。由于异常值的数量较少且与大部分样本的疏离性,因此,异常值会被更早的孤立起来,也即异常值会距离iTree的根节点更近,而正常值则会距离根节点有更远的距离。此外,相较于LOF,K-means等