【论文阅读】Learning Representations of Ultrahigh-dimensional Data for Random Distance-based Outlier

【论文阅读】Learning Representations of Ultrahigh-dimensional Data for Random Distance-based Outlier Detection

论文来源:SIGKDD 2018

原文链接:Learning Representations of Ultrahigh-dimensional Data for Random Distance-based Outlier Detection | Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining

ABSTRACT

解决维数灾难的主要方法长久以来是学习超高维数据的低维表示。然而,现有的无监督表征学习方法(representation learning)主要侧重于保留数据规则性信息(the data regularity information)并且在学习表示时独立于离群值异常检测方法,这可能导致检测效果欠佳。

本文介绍了一个基于ranking模型的框架,称为RAMODO ,以解决这一问题。 RAMODO统一了表征学习(representation learning)和异常值检测,以学习针对最先进的异常值检测方法(基于随机距离的方)定制(tailored)的低维表征。 这种定制的学习为目标异常值检测器产生更优化和稳定的表示。 此外, RAMODO可以利用少量标记的数据作为先验知识来学习更具表现力和与应用相关的表示。我们将RAMODO实例化为称为REPEN的有效方法,以演示RAMODO的性能。

在8个真实世界超高维数据集上的大量实验结果表明,REPEN(i)使基于随机距离的检测器获得了明显更好的AUC性能和两个数量级的加速比;(ii)比四种现有技术的表征学习方法执行得好得多且更稳定;和(iii)利用少于1%的标记数据来实现高达32%的AUC改善。

INTRODUCTION

对于维数灾难问题,已经提出了很多将高维空间映射到低维空间表示的方法。然而,这些方法大多在进行映射时侧重保留数据规则性信息,如重构和临近信息(the data regularity information,e.g.,data reconstruction/proximity information)。这样的方法可能无法保留那些能够揭示不规则性的重要信息,如离群值(fail to retain the important information for uncovering the irregularities)。

由于是无监督学习方法,其无法将一些有用的先验知识如小部分已知的异常值应用于表示学习当中。并且,往往由于缺乏关于不规则性(irregularities)的先验知识,进行离群值检测时识别的许多离群值是数据噪声或不感兴趣的数据对象

RAMODO将基于随机距离的离群点检测方法引入到其表示学习的目标函数中,以学习用于此类离群点评分方法的定制表示。

FRAMEWORK

image-20221219172409452

图一为RAMODO框架。其最终目标为学习一个表征函数f来将数据维度从D降为M,并且M远小于D。框架由以下四层组成。

  • Outlier Thresholding

    首先,在数据输入时,会将数据分为异常O/I正常数据候选集,这能捕获异常数据富含的知识。

  • Meta Triplet Sampling Layer

    在上一步的基础之上,生成一个三元组 T = ( < x i , ⋅ ⋅ ⋅ , x i + n − 1 > , x + , x − ) T=(< x_i , · · · , x_{i+n−1} >, x^+, x^−) T=(<xi,⋅⋅⋅,xi+n1>,x+,x)

    其中, < x i , ⋅ ⋅ ⋅ , x i + n − 1 > < x_i , · · · , x_{i+n−1} > <xi,⋅⋅⋅,xi+n1>是从正常数据I中随机选择n个数据得到, x + x^+ x+是从I中随机抽取, x − + x-+ x+是从O中随机抽取。

  • Data Rresentation Layers

    通过函数f来学习数据表示,f可以由一个或多个隐藏层组成。

  • Outiler Score-based Ranking Loss layer

    最后,基于异常得分ranking得到优化问题 L ( ϕ ( f ( x + ) ∣ < f ( x i ) , . . . , f ( x i + n − 1 ) > ) , ϕ ( f ( x − ) ∣ < f ( x i ) , . . . , f ( x i + n − 1 ) > ) ) L(ϕ(f(x^+)|<f(x_i),...,f(x_{i+n-1})>),ϕ(f(x^-)|<f(x_i),...,f(x_{i+n-1})>)) L(ϕ(f(x+)<f(xi),...,f(xi+n1)>),ϕ(f(x)<f(xi),...,f(xi+n1)>))

    其中, ϕ ( . ∣ . ) ϕ(.|.) ϕ(.∣.)是基于距离的异常得分函数, L ( . ∣ . ) L(.|.) L(.∣.)是损失函数。

    上述优化目标看上去或许有些费解。其理解为:分别得到正常值 x + x^+ x+/异常值 x − x^- x < f ( x i ) , . . . , f ( x i + n − 1 ) > <f(x_i),...,f(x_{i+n-1})> <f(xi),...,f(xi+n1)>之间基于距离得到的异常分数,通过最大化其差异,使训练得到的representation能够更好地区分正常值与异常值。

    在下文中作者结合了具体的算法进行了详细描述,见下文。

显然,文章所提供的表征学习方法质量依靠高准确度的三元组(Meta Triplet Sampling Layer)采样,而这便依赖于得到可靠的离群点候选集

作者提供了两种方案:

  • 使用最先进的离群点检测方法和切比雪夫不等式将最可能的离群点纳入候选集。

  • 当已经检测出可用的离群点时,将其合并到离群值候选集中。

A RAMODO INSTANCE: REPEN

作者将该方法应用到基于距离的随机最邻近检测器SP中。该方法见原文reference,[30]

首先,使用SP中方法,依靠随机最邻近距离与Cantelli不等式得到异常值分数 r i r_i ri与异常值候选集O。

image-20221219181807398

image-20221219181745205

生成正常值候选集I时,使用概率采样从正常值中抽取n个数据,采样概率与异常得分负相关,定义为:

image-20221219182020686

生成 x + x^+ x+时,为了保持三元组的多样性,作者使用了平均采样方法。

生成 x − x^- x时,使用重要性采样从O中取样,概率定义为:

image-20221219182245161

f函数定义为:

image-20221219182409185

w i w_i wi是D维向量, ( w 1 , w 2 , ⋅ ⋅ ⋅ , w M ) (w_1, w_2, · · · , w_M) (w1,w2,⋅⋅⋅,wM)需学习的参数。 ψ ( x ) ψ(x) ψ(x)为激活函数,使用ReLu函数。

Q = < f ( x i ) , . . . , f ( x i + n − 1 ) > Q=<f(x_i),...,f(x_{i+n-1})> Q=<f(xi),...,f(xi+n1)>,基于距离的异常得分函数 ϕ ( . ∣ . ) ϕ(.|.) ϕ(.∣.)在这里即为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MD5eOApn-1671446233564)(null)]

如之前所述,显而易见正常值 x + x^+ x+与Q之间距离小于 x − x^- x,因此得到损失函数为:

image-20221219183117330

039)]

如之前所述,显而易见正常值 x + x^+ x+与Q之间距离小于 x − x^- x,因此得到损失函数为:

[外链图片转存中…(img-P8Xm0bpY-1671446233040)]

其中,c是用来控制两者距离的参数

封闭回路的无监督学习结构化表示 封闭回路的无监督学习结构化表示是一种机器学习方法,旨在通过建立闭环反馈以自动地学习数据之间的结构化表示。在无监督学习中,我们通常没有标签的辅助信息,因此要求模型能够从数据中自动发现隐藏的结构和模式。 封闭回路的无监督学习方法的关键思想是通过对模型输出和输入进行比较来进行训练。在这个闭环中,模型的输出被重新注入到模型的输入中,从而形成了一个持续的迭代过程。模型通过调整自身的参数来最小化输入和输出之间的差异,以此来改善所学到的表示。 使用封闭回路进行无监督学习的一个例子是自编码器。自编码器是一种神经网络模型,它的输入和输出都是相同的。模型的目标是通过学习如何将输入编码为一个低维的表示,并且能够从这个低维表示中重构出输入。在训练过程中,自编码器通过最小化输入和重构输出之间的差异来调整自身的参数。 封闭回路的无监督学习方法有许多优点。首先,由于无需标签,这种方法可以适用于大量未标记的数据。其次,学习到的结构化表示可以用于许多任务,如数据压缩、降噪、特征提取等。此外,通过引入封闭回路,模型可以在训练过程中不断自我纠正,从而改善表示的质量。 总之,封闭回路的无监督学习方法通过建立闭环反馈来自动地学习数据之间的结构化表示。该方法可以应用于无标签数据,并且通过迭代过程来不断改善所学到的表示。这种方法在很多任务中都具有广泛的应用前景。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值