【论文阅读】Learning Representations of Ultrahigh-dimensional Data for Random Distance-based Outlier

最新推荐文章于 2024-10-13 16:21:50 发布

竹灬氓

最新推荐文章于 2024-10-13 16:21:50 发布

阅读量396

点赞数

分类专栏：表征学习异常检测文章标签：论文阅读

本文链接：https://blog.csdn.net/m0_46629911/article/details/128376285

版权

异常检测同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

表征学习

1 篇文章 0 订阅

订阅专栏

【论文阅读】Learning Representations of Ultrahigh-dimensional Data for Random Distance-based Outlier Detection

论文来源：SIGKDD 2018

原文链接：Learning Representations of Ultrahigh-dimensional Data for Random Distance-based Outlier Detection | Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining

ABSTRACT

解决维数灾难的主要方法长久以来是学习超高维数据的低维表示。然而，现有的无监督表征学习方法(representation learning)主要侧重于保留数据规则性信息(the data regularity information)并且在学习表示时独立于离群值异常检测方法，这可能导致检测效果欠佳。

本文介绍了一个基于ranking模型的框架，称为RAMODO ，以解决这一问题。 RAMODO统一了表征学习(representation learning)和异常值检测，以学习针对最先进的异常值检测方法（基于随机距离的方）定制(tailored)的低维表征。这种定制的学习为目标异常值检测器产生更优化和稳定的表示。此外， RAMODO可以利用少量标记的数据作为先验知识来学习更具表现力和与应用相关的表示。我们将RAMODO实例化为称为REPEN的有效方法，以演示RAMODO的性能。

在8个真实世界超高维数据集上的大量实验结果表明，REPEN（i）使基于随机距离的检测器获得了明显更好的AUC性能和两个数量级的加速比;（ii）比四种现有技术的表征学习方法执行得好得多且更稳定;和（iii）利用少于1%的标记数据来实现高达32%的AUC改善。

INTRODUCTION

对于维数灾难问题，已经提出了很多将高维空间映射到低维空间表示的方法。然而，这些方法大多在进行映射时侧重保留数据规则性信息，如重构和临近信息(the data regularity information,e.g.,data reconstruction/proximity information)。这样的方法可能无法保留那些能够揭示不规则性的重要信息，如离群值(fail to retain the important information for uncovering the irregularities)。

由于是无监督学习方法，其无法将一些有用的先验知识如小部分已知的异常值应用于表示学习当中。并且，往往由于缺乏关于不规则性(irregularities)的先验知识，进行离群值检测时识别的许多离群值是数据噪声或不感兴趣的数据对象。

RAMODO将基于随机距离的离群点检测方法引入到其表示学习的目标函数中，以学习用于此类离群点评分方法的定制表示。

FRAMEWORK

图一为RAMODO框架。其最终目标为学习一个表征函数f来将数据维度从D降为M，并且M远小于D。框架由以下四层组成。

Outlier Thresholding

首先，在数据输入时，会将数据分为异常O/I正常数据候选集，这能捕获异常数据富含的知识。
Meta Triplet Sampling Layer

在上一步的基础之上，生成一个三元组 $T=(< x_i , · · · , x_{i+n−1} >, x^+, x^−)$

其中， $x_i , · · · , x_{i+n−1} >$ 是从正常数据I中随机选择n个数据得到， $x^+$ 是从I中随机抽取， $x - +$ 是从O中随机抽取。
Data Rresentation Layers

通过函数f来学习数据表示，f可以由一个或多个隐藏层组成。
Outiler Score-based Ranking Loss layer

最后，基于异常得分ranking得到优化问题 $L(ϕ(f(x^+)|<f(x_i),...,f(x_{i+n-1})>),ϕ(f(x^-)|<f(x_i),...,f(x_{i+n-1})>))$

其中， $ϕ (.∣.)$ 是基于距离的异常得分函数， $L (.∣.)$ 是损失函数。

上述优化目标看上去或许有些费解。其理解为：分别得到正常值 $x^+$ /异常值 $x^-$ 与 $f(x_i),...,f(x_{i+n-1})>$ 之间基于距离得到的异常分数，通过最大化其差异，使训练得到的representation能够更好地区分正常值与异常值。

在下文中作者结合了具体的算法进行了详细描述，见下文。