【论文阅读】Learning Representations of Ultrahigh-dimensional Data for Random Distance-based Outlier Detection
论文来源:SIGKDD 2018
ABSTRACT
解决维数灾难的主要方法长久以来是学习超高维数据的低维表示。然而,现有的无监督表征学习方法(representation learning)主要侧重于保留数据规则性信息(the data regularity information)并且在学习表示时独立于离群值异常检测方法,这可能导致检测效果欠佳。
本文介绍了一个基于ranking模型的框架,称为RAMODO ,以解决这一问题。 RAMODO统一了表征学习(representation learning)和异常值检测,以学习针对最先进的异常值检测方法(基于随机距离的方)定制(tailored)的低维表征。 这种定制的学习为目标异常值检测器产生更优化和稳定的表示。 此外, RAMODO可以利用少量标记的数据作为先验知识来学习更具表现力和与应用相关的表示。我们将RAMODO实例化为称为REPEN的有效方法,以演示RAMODO的性能。
在8个真实世界超高维数据集上的大量实验结果表明,REPEN(i)使基于随机距离的检测器获得了明显更好的AUC性能和两个数量级的加速比;(ii)比四种现有技术的表征学习方法执行得好得多且更稳定;和(iii)利用少于1%的标记数据来实现高达32%的AUC改善。
INTRODUCTION
对于维数灾难问题,已经提出了很多将高维空间映射到低维空间表示的方法。然而,这些方法大多在进行映射时侧重保留数据规则性信息,如重构和临近信息(the data regularity information,e.g.,data reconstruction/proximity information)。这样的方法可能无法保留那些能够揭示不规则性的重要信息,如离群值(fail to retain the important information for uncovering the irregularities)。
由于是无监督学习方法,其无法将一些有用的先验知识如小部分已知的异常值应用于表示学习当中。并且,往往由于缺乏关于不规则性(irregularities)的先验知识,进行离群值检测时识别的许多离群值是数据噪声或不感兴趣的数据对象。
RAMODO将基于随机距离的离群点检测方法引入到其表示学习的目标函数中,以学习用于此类离群点评分方法的定制表示。
FRAMEWORK
图一为RAMODO框架。其最终目标为学习一个表征函数f来将数据维度从D降为M,并且M远小于D。框架由以下四层组成。
-
Outlier Thresholding
首先,在数据输入时,会将数据分为异常O/I正常数据候选集,这能捕获异常数据富含的知识。
-
Meta Triplet Sampling Layer
在上一步的基础之上,生成一个三元组 T = ( < x i , ⋅ ⋅ ⋅ , x i + n − 1 > , x + , x − ) T=(< x_i , · · · , x_{i+n−1} >, x^+, x^−) T=(<xi,⋅⋅⋅,xi+n−1>,x+,x−)
其中, < x i , ⋅ ⋅ ⋅ , x i + n − 1 > < x_i , · · · , x_{i+n−1} > <xi,⋅⋅⋅,xi+n−1>是从正常数据I中随机选择n个数据得到, x + x^+ x+是从I中随机抽取, x − + x-+ x−+是从O中随机抽取。
-
Data Rresentation Layers
通过函数f来学习数据表示,f可以由一个或多个隐藏层组成。
-
Outiler Score-based Ranking Loss layer
最后,基于异常得分ranking得到优化问题 L ( ϕ ( f ( x + ) ∣ < f ( x i ) , . . . , f ( x i + n − 1 ) > ) , ϕ ( f ( x − ) ∣ < f ( x i ) , . . . , f ( x i + n − 1 ) > ) ) L(ϕ(f(x^+)|<f(x_i),...,f(x_{i+n-1})>),ϕ(f(x^-)|<f(x_i),...,f(x_{i+n-1})>)) L(ϕ(f(x+)∣<f(xi),...,f(xi+n−1)>),ϕ(f(x−)∣<f(xi),...,f(xi+n−1)>))
其中, ϕ ( . ∣ . ) ϕ(.|.) ϕ(.∣.)是基于距离的异常得分函数, L ( . ∣ . ) L(.|.) L(.∣.)是损失函数。
上述优化目标看上去或许有些费解。其理解为:分别得到正常值 x + x^+ x+/异常值 x − x^- x−与 < f ( x i ) , . . . , f ( x i + n − 1 ) > <f(x_i),...,f(x_{i+n-1})> <f(xi),...,f(xi+n−1)>之间基于距离得到的异常分数,通过最大化其差异,使训练得到的representation能够更好地区分正常值与异常值。
在下文中作者结合了具体的算法进行了详细描述,见下文。
显然,文章所提供的表征学习方法质量依靠高准确度的三元组(Meta Triplet Sampling Layer)采样,而这便依赖于得到可靠的离群点候选集。
作者提供了两种方案:
-
使用最先进的离群点检测方法和切比雪夫不等式将最可能的离群点纳入候选集。
-
当已经检测出可用的离群点时,将其合并到离群值候选集中。
A RAMODO INSTANCE: REPEN
作者将该方法应用到基于距离的随机最邻近检测器SP中。该方法见原文reference,[30]
首先,使用SP中方法,依靠随机最邻近距离与Cantelli不等式得到异常值分数 r i r_i ri与异常值候选集O。
生成正常值候选集I时,使用概率采样从正常值中抽取n个数据,采样概率与异常得分负相关,定义为:
生成 x + x^+ x+时,为了保持三元组的多样性,作者使用了平均采样方法。
生成 x − x^- x−时,使用重要性采样从O中取样,概率定义为:
f函数定义为:
w i w_i wi是D维向量, ( w 1 , w 2 , ⋅ ⋅ ⋅ , w M ) (w_1, w_2, · · · , w_M) (w1,w2,⋅⋅⋅,wM)需学习的参数。 ψ ( x ) ψ(x) ψ(x)为激活函数,使用ReLu函数。
令 Q = < f ( x i ) , . . . , f ( x i + n − 1 ) > Q=<f(x_i),...,f(x_{i+n-1})> Q=<f(xi),...,f(xi+n−1)>,基于距离的异常得分函数 ϕ ( . ∣ . ) ϕ(.|.) ϕ(.∣.)在这里即为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MD5eOApn-1671446233564)(null)]
如之前所述,显而易见正常值 x + x^+ x+与Q之间距离小于 x − x^- x−,因此得到损失函数为:
039)]
如之前所述,显而易见正常值 x + x^+ x+与Q之间距离小于 x − x^- x−,因此得到损失函数为:
[外链图片转存中…(img-P8Xm0bpY-1671446233040)]
其中,c是用来控制两者距离的参数