Adversarial Motorial Prototype Framework for Open Set Recognition

摘要

开放集识别是为了同时识别已知类和拒绝未知类。具体来说,识别已知类和拒绝未知类分别对应于降低经验风险和开放空间风险。

  • 首先,提出了运动原型框架(MPF),它根据原型分类思想对已知类进行分类。此外,在MPF的损失函数中加入了运动边际约束项,可以进一步提高已知类在特征空间中的聚类紧凑性,从而降低这两种风险。
  • 其次,本文提出了基于MPF的对抗性机动性原型框架(AMPF)。一方面,该模型可以生成对抗性样本,并将这些样本加入到训练阶段;另一方面,利用边际约束半径的对抗性运动,可以进一步提高模型对已知类和未知类的差异性映射能力。
  • 最后,本文提出了AMPF的升级版--AMPF++,它在训练阶段加入了更多的生成的未知样本。

在本文中,大量的实验证明了所提出的模型的性能优于目前其他作品。

引言

近年来,随着人工智能技术的发展,深度学习的应用已经渗透到生活的许多方面,如图像识别和语音识别[1],[2]。一般来说,大部分的识别研究都集中在封闭集识别(CSR)上,其测试集和训练集有相同的数据类别。然而,在实际应用中,由于实际使用场景的复杂性,测试集的类别可能与训练集的类别不完全一致。这种在测试集中可能包含大量未知类的目标识别,被称为开放集识别(OSR)[3]。

OSR的关键是在识别已知类的同时识别未知类。换句话说,除了CSR之外,OSR还需要使未知类的嵌入特征的分布不与已知类的嵌入特征相重合。CSR对应的是经验风险的降低,而避免未知类和已知类的嵌入特征的重叠对应的是开放空间风险的降低[3]。因此,OSR必须同时降低经验风险和开放空间风险。

当经典的深度神经网络解决经验风险时,一个全连接层被连接到网络的末端进行分类,并使用softmax来训练网络。如图1(a)所示,特征空间将被超平面划分为几个半开放空间,已知类别的特征将被强制落入相应的半开放空间。虽然由softmax训练的网络可以有效地对MNIST进行分类,但图1(f)证明了这个网络无法避免已知类和未知类之间的嵌入特征的重叠。

为了避免使用softmax训练网络造成的开放空间风险,人们提出了一些原型方法用于OSR[5], [6], [7], [8]。其中,H. M. Yang等人提出了GCPL模型[7]。该模型利用一个原型来代表特征空间中的每个已知类别,并强制训练数据的特征接近于相应的原型。与softmax相比,GCPL的优势在于不仅可以有效降低经验风险,而且可以提高特征空间中每个类群的紧凑程度,有利于降低开放空间风险。但是,由于GCPL不关心原型在特征空间中的位置,从图1(g)中可以看出,仍然有两个已知聚类与未知聚类重叠。

陈光耀等人提出了OSR的RPL/ARPL模型[5], [6]。与GCPL不同,这两个模型鼓励训练数据的特征远离相应的倒数点。根据图1(c)和1(d),这两个模型都能有效降低经验风险。在开放空间风险方面,从图1(h)可以看出,在特征空间中仍有少量的未知类与已知类重合,而ARPL比RPL好。虽然ARPL的性能已经非常好,如图1(i)所示,但红、黄、绿三个未知类的分布并不紧密,它有向外分布的趋势。随着未知类变得更加复杂和多样化,将产生开放空间风险。我们认为,这个模型的潜在风险可能与其反直觉的分类思想有关。

为了更好地降低这两种风险,本文提出了一种新的运动原型框架(MPF)。在原型分类思想的基础上,MPF在损失函数中增加了一个机动边际约束项,这个约束项可以进一步压缩特征空间中已知类的分布范围。如图1(e)和1(j)所示,与其他模型相比,MPF可以同时有效降低经验风险和开放空间风险。

当在测试阶段面对无穷无尽的未知类时,仅根据有限的已知类来降低开放空间风险显然是不够的。因此,许多研究产生未知类数据并将其加入训练阶段,以进一步降低开放空间风险[5], [9], [10], [11], [12]。考虑到这个想法,在MPF的基础上提出了一个 "对抗性运动 "属性模型,即对抗性运动原型框架(AMPF)。结合训练阶段的已知类数据和生成的数据,该模型通过边际约束半径的对抗性运动迫使未知类特征远离已知类。此外,还提出了AMPF模型的增强版,即AMPF++,该模型可以在训练阶段加入开放空间中更多区域的生成的未知类数据,以进一步提高OSR性能。

我们的贡献主要集中在以下几个方面:

  • 1)提出了一个新颖的MPF模型,该模型通过压缩特征空间中已知类的分布范围,同时降低经验风险和开放空间风险;
  • 2)在MPF的基础上,提出了AMPF。在这个模型中,引入了具有对抗性运动特性的新型优化策略,可以有效降低开放空间风险;
  • 3)提出了AMPF的增强版,即AMPF++,通过在训练阶段看到更多的未知类数据产生,可以进一步提高OSR性能;
  • 4)在更大、更难的ImageNet数据集上进行了许多实验,证明我们的方法优于以前的方法,达到了最先进的性能。

2 相关工作

2.1 开放集识别

OSR最早由Walter Scheirer等人定义[3]。耿传兴等人对OSR的工作进行了详细的总结,主要将OSR的工作分为两类,包括判别性模型和生成性模型[13] 。

鉴别性模型。OSR中对未知类的检测可以看作是一种二元分类。这类二元分类功能一开始主要是基于传统的机器学习方法实现的,特别是支持向量机,如[3]、[14]、[15]、[16]、[17]等。随着深度学习技术的发展,许多基于深度神经网络的方法也被开发出来。Dhamija等人最早评估了训练好的深度神经网络的开放空间风险,他们提出了一个新颖的objectosphere损失函数,通过最大化未知类的熵来降低开放空间风险[4]。Bendale等人提出了OpenMax模型,用OpenMax层取代了深度网络中的softmax层,用于OSR[18]。Rozsa等人评估了由OpenMax和softmax训练的网络的分类稳健性,发现OpenMax模型的稳健性容易受到一些对抗性图像的影响[19]。

Hassen等人根据同一类别的嵌入特征更接近的标准来训练网络,并证明这种方法在统计上有明显的性能改进[20]。有两项重要的研究是基于已知类的重构误差小于未知类的重构误差,即分类重构OSR(CROSR)和类条件自动编码器OSR(C2AE),它们在各种数据上都有非常好的表现[21],[22]。与上述工作不同,ShuLei等人利用子模型的距离函数来检测未知类中的潜在类别信息[23]。

在这些工作中,进行了各种复杂的策略以使嵌入特征更具有辨别力。 然而,这些仅基于已知类别构建的模型,在识别未知类别的能力上显然是有限的。

生成模型。为了加强OSR的性能,生成式模型将生成的未知类数据加入到训练过程中。因此,生成数据的方法就显得尤为重要。目前,主流的数据生成方法是Goodfellow Ian等人提出的生成式对抗网络(GAN)[24]。 在OpenMax模型的基础上,葛宗元等人结合GAN的特点,提出了GOpenMax模型[9]。作为生成模型的性能基准,它可以有效地检测手写数字集中的未知类别,而在自然图像上则表现不佳。与G-OpenMax不同,Neal Lawrence等人将GAN结构与编码器-解码器的思想相结合,提出了带有反事实图像的OSR(OSRCI)模型[10],并影响了许多后续研究,如[11],[12]。

与GAN的生成机制不同,Yang Yu等人提出了对抗性样本生成模型,该模型不仅可以生成未知类,还可以生成已知类来增强训练数据[25]。Sun X等人在变异自动编码器的基础上提出了条件高斯分布学习(CGLD),该模型强制不同的潜伏特征来近似不同的高斯模型,用于OSR[26]。张宏杰等人提出了包括编码器、分类器和基于流量的密度估计器的Hhbrid,其中密度估计器用于检测样本是否属于一个未知类别[27]。

这些模型提高了OSR的性能,因为它们在训练阶段看到了大量的未知类数据。与判别性模型相比,生成性模型的主要思想在提高OSR性能方面起着关键作用。因此,可以预见,未来会有更多这样的方法出现。

2.2 原型学习

原型通常用来指一个或多个可以代表集群的点[28]。最著名的按原型分类的方法是k-NN。在k-NN的基础上,Kohonen等人提出了学习向量量化(LVQ)模型,该模型为每一类数据分配一个或多个原型来代表和区分数据中的不同类别[29]。在LVQ的基础上,许多研究都致力于提高该模型的性能。一些人在训练阶段设计了更多的升级规则,而另一些人则为参数优化设计了新的损失函数[29], [30], [31], [32], [33]。此外,Liu, C.L.等人提出了三种基于参数优化的算法,并在多个手写字符数据集上获得了最好的识别结果[34]。这些早期的研究成果大多是基于人工设计的特征

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值