关键词:离群点检测、生成潜在离群点、维数诅咒、生成性对抗主动学习、模式崩溃问题、多目标生成性对抗主动学习
1.INTRODUCTION
1.1 Outlier Detection应用领域
- 异常轨迹
- 运动目标检测
- 欺诈检测
- 新兴主题检测
- 医疗信息检测
1.2存在的问题
需要足够多的正常、异常的标签(非常昂贵)
通过假设整个数据集只包含正常实例,异常检测通常被认为是一类分类问题。最直接的方法是为所有样本创建一个模型,然后根据与建立的正常配置文件的偏差计算离群值。
具体方法有基于统计的模型、基于回归的模型、基于集群的模型、基于重构的模型,它们对正常数据的生成机制做出了不同的假设。
问题: 缺乏关于数据特征的先验信息,很难选择合适的模型和参数。
1.3AGPO-baesd方法
通过生成潜在的异常值来创建标记数据集。然后,任何现成的分类器都可以用于后续的检测。
最直观的方法是从均匀分布中抽取潜在的异常值。然而,由于数据在高维空间中的稀疏性,有限数量的潜在异常值可能无法提供足够的信息来帮助分类器描述一个清晰的边界,从而将异常值与正常数据分离开来。
为了解决这个问题,已经做了一些工作来生成发生在真实数据内部或附近的数据点。例如,一类分类方法综合了基于真实数据密度估计的潜在异常值;然而,它需要对数据的基本分布做出假设。
基于主动学习的方法通过不确定抽样从随机生成的数据中选择信息样本;然而,由于日益复杂的数据结构,并不能保证始终保持良好的性能.
2.用于异常检测的生成式对抗主动学习
2.1 SO-GAAL
为了解决“curse of dimensionality”造成的信息缺失问题,将生成式对抗学习框架应用于离群点检测,该方法在SO-GAAL中实际执行了一个主动的学习过程。
2.1.1 背景
G:生成器(生成与真实数据相似的样本)
D:判别器(有效估计数据来自真实数据P或者生成器G的概率)
判别模型和生成模型是深度学习领域的两大模型。然而判别模型已经研究的较好(由于反向传播、dropout、relu激活函数的出现),生成模型却由于概率计算困难(最大似然估计计算难)加上不好使用relu函数,使其发展较为缓慢。
2.1.2 GAN模型
2.1.3 运行结果
在训练的早期阶段,G可能无法生成足够数量的潜在异常值(如图中的灰点所示)。这使得D通过一个粗略的边界(用红线表示)将生成的数据与真实数据分开。
但是,经过几次迭代之后,G逐渐了解了生成机制,并合成了越来越多的潜在异常值,这些异常值出现在真实数据内部或接近真实数据的地方. 结果表明,G能够准确地描述包含集中法线数据点的分割边界。
G通过生成信息潜在异常值有效地提高了D的准确性,这实际上是一个主动的学习过程。
2.1.4 优点及问题
与现有的基于主动学习的异常检测方法相比,SO-GAAL可以直接生成有价值的