SO-GAAL:Generative Adversarial Active Learning for Unsupervised Outlier Detection

一、摘要

由于高维空间中数据的稀疏性,有限数量的潜在异常值无法提供足够的信息来帮助分类器描述正常数据与异常数据之间的边界。为了解决这个问题,此论文提出了一种SO-GAAL方法来检测异常值,该方法可以基于生成器和判别器之间的mini-max博弈直接生成信息丰富的潜在异常值。此外,为防止SO-GAAL陷入检测异常问题,将SO-GAAL的网络结构从单个生成器扩展到具有不同目标的多个生成器。

二、简介

  • 将异常值检测视为二分类问题,不依赖于对正常数据的假设并且耗费较少的计算资源。在此基础上,提出一种新的异常检测算法SO-GAAL,该算法采用生成对抗学习直接生成信息量大的异常值,解决了“维数灾难”导致的信息缺失问题。
  • 并将SO-GAAL扩展到MO-GAAL,防止单个生成器陷入模式崩溃问题。

三、方法

SO-GAAL将异常检测问题看作一个二分类问题,不需要依赖于其他的对于正常数据的假设计算等,对计算资源的消耗减少。但是,由于数据点的绝对密度随着维度的增加而收敛于0,有限数量的潜在异常值无法为分类器提供足够的信息。因此,分类器C(x)在许多情况下无法描述正确的边界。比如:(下图)潜在的异常值很难接近真正的异常值或者只是聚集在几个正常样本周围。这就意味着我们需要生成足够的潜在异常值,以均匀的覆盖整个样本空间,这是不现实的。而且,远离真实数据的潜在异常值对划分边界没有影响。因此,此论文提出一种基于最新的生成对抗学习框架的新策略,以直接生成发生在真实数据内部或接近真实数据的信息性潜在异常。
边界划分
SO-GAAL的训练结果
应用ddd…*d的网络结构(如图3)、ReLU激活函数、SO-GAAL中生成器G的随机正交初始权重。在判别器D的引导下,生成的潜在异常值可以从整个样本空间逐渐聚合到真实数据所在的区域,创建合理的参考分布,避免生成的数据可能会聚合到样本空间的中心,然后以簇的形式移动到真实数据所在的区域的问题。
大概在100次迭代之后,判别器就能对边界进行较为准确的划分。
MO-GAAL模型
将真实数据划分成k个子集,让每个子生成器Gi学习子集中数据的生成机制,生成器输出生成的相似的潜在异常值,来逐步学习子集中的数据的生成机制。然而,在极端情况下,集成子生成器Gi可能会创建与真实数据X相同的分布,导致判别器为所有x赋分0.5。因此,为了创建合理的参考分布,需要为不太集中的子集生成更多的潜在异常值。

四、个人理解

浅读这篇论文,我对这篇论文的理解就是。为了解决高维空间数据稀疏性的问题,此论文提出了一种SO-GAAL的方法来生成大量的潜在异常值,解决“维度灾难”的问题。然后发现SO-GAAL在训练到一定程度之后(即达到纳什平衡之后),检测准确度就会显著下降。为了解决这一问题,又提出了MO-GAAL的方法,一个判别器与多个生成器,为不同的数据子集生成潜在异常值,检测的准确度就不会随着训练的时间增加而下降了。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值