Generative Adversarial Active Learning for Unsupervised Outlier Detection

最新推荐文章于 2022-03-25 15:48:11 发布

Avrilzyx

最新推荐文章于 2022-03-25 15:48:11 发布

阅读量2.8k

点赞数 2

分类专栏：异常检测论文阅读文章标签：异常检测论文阅读

本文链接：https://blog.csdn.net/avrilzyx/article/details/103157496

版权

本文介绍了利用生成对抗网络（GAN）进行异常检测的主动学习方法，针对维数诅咒和模式崩溃问题，提出了SO-GAAL和MO-GAAL算法。SO-GAAL通过生成潜在异常值，而MO-GAAL通过多个子生成器避免模式崩溃，实验结果显示MO-GAAL在多种数据集上表现出优越的性能和鲁棒性。

摘要由CSDN通过智能技术生成

关键词：离群点检测、生成潜在离群点、维数诅咒、生成性对抗主动学习、模式崩溃问题、多目标生成性对抗主动学习

1.INTRODUCTION

1.1 Outlier Detection应用领域

异常轨迹
运动目标检测
欺诈检测
新兴主题检测
医疗信息检测

1.2存在的问题

需要足够多的正常、异常的标签（非常昂贵）

通过假设整个数据集只包含正常实例，异常检测通常被认为是一类分类问题。最直接的方法是为所有样本创建一个模型，然后根据与建立的正常配置文件的偏差计算离群值。
具体方法有基于统计的模型、基于回归的模型、基于集群的模型、基于重构的模型，它们对正常数据的生成机制做出了不同的假设。

问题： 缺乏关于数据特征的先验信息，很难选择合适的模型和参数。

1.3AGPO-baesd方法

通过生成潜在的异常值来创建标记数据集。然后，任何现成的分类器都可以用于后续的检测。
最直观的方法是从均匀分布中抽取潜在的异常值。然而，由于数据在高维空间中的稀疏性，有限数量的潜在异常值可能无法提供足够的信息来帮助分类器描述一个清晰的边界，从而将异常值与正常数据分离开来。

为了解决这个问题，已经做了一些工作来生成发生在真实数据内部或附近的数据点。例如，一类分类方法综合了基于真实数据密度估计的潜在异常值;然而，它需要对数据的基本分布做出假设。
基于主动学习的方法通过不确定抽样从随机生成的数据中选择信息样本;然而，由于日益复杂的数据结构，并不能保证始终保持良好的性能.

2.用于异常检测的生成式对抗主动学习

2.1 SO-GAAL

为了解决“curse of dimensionality”造成的信息缺失问题，将生成式对抗学习框架应用于离群点检测，该方法在SO-GAAL中实际执行了一个主动的学习过程。

2.1.1 背景

G:生成器（生成与真实数据相似的样本）
D:判别器（有效估计数据来自真实数据P或者生成器G的概率）
判别模型和生成模型是深度学习领域的两大模型。然而判别模型已经研究的较好（由于反向传播、dropout、relu激活函数的出现），生成模型却由于概率计算困难（最大似然估计计算难）加上不好使用relu函数，使其发展较为缓慢。

2.1.2 GAN模型

SO-GAAL

2.1.3 运行结果

SO-GAAL
在训练的早期阶段，G可能无法生成足够数量的潜在异常值(如图中的灰点所示)。这使得D通过一个粗略的边界(用红线表示)将生成的数据与真实数据分开。
但是，经过几次迭代之后，G逐渐了解了生成机制，并合成了越来越多的潜在异常值，这些异常值出现在真实数据内部或接近真实数据的地方. 结果表明，G能够准确地描述包含集中法线数据点的分割边界。
G通过生成信息潜在异常值有效地提高了D的准确性，这实际上是一个主动的学习过程。