OPEN SET RECOGNITION BY REGULARISING CLASSIFIER WITH FAKE DATA GENERATED BY GENERATIVE ADVERSARIAL

用生成式对抗网络生成的假数据进行正则化分类器的开放集识别

摘要

我们提出了一种新的方法,在生成对抗网络(GANs)框架内生成未知类别的假数据。GANs中的生成器被训练成与已知类别的数据有些相似,但不同的是,它通过使用提议的边际去噪自动编码器对分类器的特征空间进行噪声分布建模来生成。生成的数据被视为未知类别的假实例,并交给分类器,使其对真正的未知类别具有鲁棒性。我们的研究结果表明,合成数据可以作为假的未知类,并降低分类器对真正的未知类的确定性,同时,已知类的分类能力没有退化,甚至有所提高。

1.引言

深度学习在各个领域都受到了广泛的关注,而且最近发展得越来越快。在各种机器学习任务中,图像分类任务是计算机视觉中著名的问题之一,许多研究人员以多种方式解决这个问题[1, 2, 3]。一些网络甚至比以前的网络更深或更广,并达到了人类水平的性能[4, 5]。所有这些模型都被训练成将给定的数据分类为预先定义的已知类别(正面数据)。然而,收集所有类别的数据,在实践中是不可能的。我们唯一拥有的数据是有限的类别,而巨大的其他类别就在那里。当训练期间没有看到的未知类别的数据(负面数据)被赋予模型时,困难就出现了,因为它只是将给定的负面数据分配到一个特定的已知类别,即使该数据不属于任何已知类别。

识别未知类别的任务可以通过新颖性检测或异常检测来解决。尽管许多研究已经提出了解决新颖性检测的方法,并在[6]中做了很好的总结,但它倾向于将未知类与已知类区分开来,而忽略了类标签。

开放集识别问题被形式化为开放集风险最小化[7],但其本质是相当简单的。在开放集识别中,模型应该有能力对已知类别进行分类,并同时将未知类别与已知类别区分开来。为了解决这个问题,可以采用额外的新颖性检测模型,也可以引入不确定性度量(得分),即模型对其预测的信心程度。不确定度量有几种选择,如模型预测的熵[8],对数的最大值(最后一层的softmax函数之前的值),以及复杂的分数分析[9, 10]。无论采用何种不确定性度量,即使是最简单的度量,我们都能通过明确最大化生成数据的不确定性来检测未知类,即所谓的正则化,前提是只用已知类来生成未知类的假数据是可行的。如果我们能设计出这样的假阴性数据生成器,那么就不再需要额外的模型或复杂的分数分析来检测未知的类了。我们唯一需要的是一个分类器,它可

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值