每个样本的异常分数称为局部异常因子。异常分数是局部的,取决于相对于周围邻域的隔离程度。局部性由 k 近邻给出,并使用距离估计局部密度,通过将样本的局部密度与其邻居的局部密度进行比较,可以是被密度明显低于其邻居的样本,这些样本就被当作是异常样本点。
算法原理 & LOF 算法相关定义:
-
d ( p , o ) d(p, o) d(p,o):点 p 和点 o 之间的距离
-
k-distance: 第 k 距离,距离点 p 第 k 远的那个距离值,即点 p 距离第 k 个邻居的距离
-
K-distance neighborhood of p:第 k 距离邻域 N k ( p ) N_k(p) Nk(p),就是点 p 的第 k 距离及之内的所有点,即点 p 的 k 个邻居
-
reach-distance:可达距离
点 o 到点 p 的第 k 可达距离定义为:
reach-distance k ( p , o ) = max { k − d i s t a n c e ( o ) , d ( p , o ) } \text{reach-distance}_k(p, o) = \max\{ k - distance(o), d(p,o)\} reach-distancek(p,o)=max{ k−distance(o),d(