HBOS算法
1. 简介
- HBOS全名为:
Histogram-based Outlier Score。它是⼀种单变量⽅法的组合,不能对特征之间的依赖关系进⾏建模,但是计算速度较快,对⼤数据集友好。其基本假设是数据集的每个维度相互独⽴。然后对每个维度进⾏区间(bin)划分,区间的密度越⾼,异常评分越低。 - 为每个数据维度做出数据直⽅图。对分类数据统计每个值的频数并计算相对频率。
- 对每个维度都计算了⼀个独⽴的直⽅图,其中每个箱⼦的⾼度表⽰密度的估计。然后为了使得最⼤⾼
度为1(确保了每个特征与异常值得分的权重相等),对直⽅图进⾏归⼀化处理。最后,每⼀个实例的
HBOS值由以下公式计算:
H B O S ( p ) = ∑ i = 0 d log ( 1 hist