PMAL: Open Set Recognition via Robust Prototype Mining

PMAL: Open Set Recognition via Robust Prototype Mining
摘要

开放集识别(OSR)是一个新兴的话题。 除了识别预定的类别,系统还需要拒绝未知的东西。原型学习是处理该问题的一种潜在方式,因为在区分已知和未知时,非常需要其提高类内表征的紧凑性的能力。在这项工作中,我们提出了一个新的原型挖掘和学习(PMAL)框架。它在优化嵌入空间的阶段之前有一个原型挖掘机制,明确考虑了两个关键属性,即原型集的高质量和多样性。具体来说,

  • 首先从基于数据不确定性学习的训练样本中提取一组高质量的候选样本,避免了意外噪声的干扰。
  • 考虑到即使是在单一类别中的物体的多种外观,提出了一种基于多样性的原型集过滤策略。
  • 广泛的实验验证了原型挖掘中所包含的两个良好特性(即高质量和多样性),并显示了与先进技术相比所提出的框架的显著性能。

引言

经典的图像分类问题通常是基于近似集的假设,即测试集中出现的类别都应该被训练集所覆盖。然而,在现实世界的应用中,测试阶段可能会出现未见过的类别样本,这些样本将不可避免地被错误地分类到特定的已知类别。为了打破封闭集的局限性,开放集识别(OSR)(Scheirer等人,2013)被提出,它有两个子目标:已知类分类和未知类检测。

基于原型学习(PL)的方法最近获得了可喜的表现(Yang等人,2018;Chen等人,2020)。这组方法通过使用原型学习更紧凑的类内特征表征(代表每个类的判别特征),在已知和未知之间产生更清晰的界限。详细来说,(Yang等人,2018)从原始数据中联合学习CNN特征提取器和原型,并通过寻找最近的原型来预测类别,而不是传统的SoftMax层。(Chen et al. 2020)推进了框架(Yang et al. 2020),逆向使用名为倒数点的原型来代表每个已知类别的外部嵌入空间,然后限制未知类别的嵌入空间。现有的方法都是联合进行原型学习和嵌入优化,把原型看作是参数化的向量,对获得原型的过程没有直接约束。这里我们称其为隐性学习的原型,相反,如果对原型本身施加直接的指导,我们称其为显性学习的原型。上述所有的方法都属于前一类,即基于隐性原型的方法。虽然它们不可避免地会遇到一些问题,特别是在复杂的情况下。

两个典型的问题如图1所示:

(1)不希望学到的原型接近于低质量样本的特征空间。如图1(a)所示,隐式学习的原型被低质量的样本所误导。正如(Shi and Jain 2019)中所说,高质量样本的嵌入是有鉴别力的,而低质量样本对应的是模糊的特征。原型应该代表每一类的判别性特征,所以只有高质量的样本才是合适的。(这个不能这么绝对吧)(2) 类似原型的冗余和缺乏多样性。如果没有明确的指导,一个类别中的原型会表现出很多冗余,不能充分表现出多种多样的外观。如图1(b)所示,绿色标记的原型在特征空间中是相邻的,附近的样本也显示出相似的外观,这意味着学习到的原型是冗余的。此外,绿色和黄色矩形中的飞机显示出很大的区别,它们的嵌入位于不同的位置。显然,只使用绿色的原型不能完全捕捉到多种多样的外观,我们需要原型集的多样性。(这两个明显真的对吗)

在此基础上,我们考虑到高质量的原型和它们的多样性,建议明确设计原型的挖掘标准,然后用所选择的理想原型进行PL。请注意,与现有的隐式原型不同,我们提出的原型可以被视为显式原型。我们把这个新的框架命名为原型挖掘和学习(PMAL)。该框架如图2所示,它可以分为两个阶段,即原型挖掘和嵌入学习的顺序。

  • (1) 原型挖掘阶段。首先根据新提出的嵌入拓扑稳健性指标从训练集中提取高质量的候选样本,该指标可以捕捉到由固有的低质量因素引起的样本中包含的数据不确定性。然后,原型集的过滤被设计为在每个类别中纳入原型的多样性。该步骤不仅防止了相似原型的冗余,而且还保留了每个类别的多姿多彩的外观。
  • (2) 嵌入优化阶段。在这个阶段,给定高可靠性的原型,通过精心设计的点对点距离度量来优化嵌入空间。由于后一阶段只对嵌入空间进行工作,通过提前挖掘原型和有序的特征优化,训练负担也得到了减轻。

我们的主要贡献有以下几点。

  • (1) 与常见的隐式可学习原型的使用不同,我们更关注为OSR任务选择具有明确标准的原型。我们指出了原型的两个重要属性,即高质量和多样性。
  • (2) 我们通过原型挖掘和学习来设计一个OSR框架。在原型挖掘阶段,上述两个关键属性被纳入考虑范围。在嵌入学习阶段,以选择的原型作为每个类的固定锚,学习一个更好的嵌入空间,不需要任何复杂的技能来收敛。
  • (3) 在多个OSR基准上的广泛实验表明,我们的方法在区分已知和未知方面具有强大的能力,以很大的幅度超过了最先进的性能,特别是在复杂的大规模任务中。

相关工作

Scheirer等人(Scheirer et al. 2013)从理论上定义了OSR,他们在基于SVM的模型中加入了一个超平面来区分未知样本和已知样本。随着深度神经网络的快速发展,Bendale等人(Bendale and Boult 2016)通过引入OpenMax函数将深度神经网络纳入OSR。随后,Ge(Ge, Demyanov, and Garnavi 2017)和Neal(Neal et al. 2018)都试图通过流行的生成对抗网络来合成未见类的训练样本。

最近,基于重构的(Yoshihashi et al. 2019; Oza and Patel 2019; Sun et al. 2020)方法被广泛研究,其中Sun等人(Sun et al. 2020)通过学习已知类的条件高斯分布然后检测未知类,取得了很好的效果。Zhang等人(Zhang et al. 2020)在现有分类器的基础上增加了一个流密度估计器,以拒绝未见过的样本。这些方法都包含了OSR的辅助模型(如自动编码器),因此不可避免地带来了额外的计算成本。

自从(Yang等人,2020;Chen等人,2020)尝试将原型学习与深度神经网络结合起来用于OSR,他们取得了新的进展。原型指的是每一类的代表性样本或潜在特征。 它的灵感来自于心理学认知领域的原型形成理论(Rosch 1973),后来被纳入一些深度网络中,例如人脸识别(Ma等人,2013;Wang等人,2016),少数学习(Snell, Swersky, and Zemel 2017)。Yang等人(Yang et al. 2020, 2018)介绍了卷积原型网络(CPN),在训练过程中每一类的原型被联合学习。Chen等人(Chen et al. 2020)为OSR学习了判别性的倒数点,这可以被视为原型的逆向概念。然而,这些方法由于样本质量不高和缺乏多样性而导致原型不可靠,从而导致原型的代表性有限。

术语

3.1 符号

让X!Z表示经过训练的深度分类模型从输入数据集X=fxigN i=1到其嵌入空间Z=fz(xi)gN i=1的映射,其中Z2RN×D,N为样本数,D为嵌入通道大小。Z中已知类k的样本所占据的特征区域被称为嵌入区域Zk,其中k2f1;::;Kg,K是已知类的数量。

给定输入xi2X,将提取的特征z(xi)(简单表示为zi)送入终极线性层,然后进行SoftMax运算,得到xi属于第k类的概率p(-),即。


其中y^i是预测的类别,W=(w1;::;wK) 2 RD×K和b 2RK是线性层的权重和偏置项。 

3.2 不确定性的初步研究

在深度不确定性学习中,不确定性(Chang等人,2020)可以分为模型不确定性和数据不确定性。

  • 模型的不确定性捕捉到了深度神经网络中参数的噪声。
  • 我们在这项工作中提到的是数据不确定性,它捕捉了输入数据的固有噪声。

它在深度学习中被广泛探索,以解决各种计算机视觉任务,例如,人脸识别(Shi和Jain 2019),语义分割(Kendall, Badrinarayanan, and Cipolla 2016)等。一般来说,固有的噪声是由两个因素造成的:图像的低质量和标签噪声。在本工作的范围内,为了评估PL中的合格样本,我们只考虑前者。按照(Chang et al. 2020),当把输入样本xi映射到Z中时,输入中包含的固有噪声,即数据不确定性,也会被投射到嵌入空间中,嵌入特征z(xi)可以被表述为。

其中φ(xi)代表xi的鉴别性类相关特征,可以看作是代表其身份的理想嵌入。φ表示嵌入模型。n(xi)来自高斯分布,其均值为0,方差为σ(xi),σ(xi)代表Z中xi的数据不确定性(即。σ(xi)代表Z中xi的数据不确定性(即由低质量引起的类不相关的噪声信息),xi中包含的噪声越多,嵌入空间中的不确定性σ(xi)就越大。为了简单起见,我们在下文中把z(xi)、φ(xi)、σ(xi)表示为zi、φi、σi。 

4 原型挖掘

原型挖掘阶段有两个步骤,分别是高质量的候选样本选择和基于多样性的过滤。

4.1 高质量的候选样本选择

由于数据的不确定性捕获了由低质量引起的样本的噪声,我们利用它来选择高质量的样本作为候选原型。为了对数据的不确定性进行建模,我们提出了一个简单而有效的算法,其中包括以下三个步骤。

  • 1)嵌入空间初始化,
  • 2)数据不确定性建模,
  • 3)候选人选择。

嵌入空间初始化。按照MonteCarlo模拟(Gal和Ghahramani 2016),我们首先在已知类的训练集上通过重复训练过程U次获得U个基于SoftMax的深度分类器fMugU u=1。然后将输入数据送入预训练的分类器,得到fZugU u=1。注意到通过进行随机参数初始化和数据洗牌的重复训练过程,足以正式确定不同的嵌入空间,这在(Lakshminarayanan, Pritzel, and Blundell 2017)中得到证明。在这里,为了更清楚地说明问题,我们将U设置为2。

数据不确定性建模。基于第3.2节,样本的质量越高,其数据不确定性越低。

属性1.给定一个高质量的样本xi,其嵌入zi满足zi≈φi。

疑问:需要保证是高质量的分类器,即提取的特征是高质量的。而且这也不叫高质量样本,应该是判别原型吧,因为n(x)不一定是高斯噪声,还可能是背景、其他噪声等等。

高质量的样本xi满足σi≈0,然后结合等式2,我们可以很容易地得到上述属性。2,我们可以很容易地得到上述属性。假设我们从训练数据中选择高质量的样本,形成候选原型集C=fcigH i=1⊆X,其中H是总的候选数。相应地,它们在两个不同空间Z1和Z2的嵌入集可以表示为Φ1=fzi1gH i=1≈fφ1 i gH i=1,Φ2=fzi2gH i=1≈fφ2 i gH i=1,其中上标表示嵌入空间的索引。

属性2.给定一对样本(xi; xj),8 i; j 2f1;::Hg,嵌入空间Z中的Mahalanobis距离可以通过dM(zi; zj)=p(zi-zj)Σ-1(zi-zj)T计算,其中Σ-1是协方差矩阵。如果xi、xj都是高质量的,在不同的嵌入空间中dM(zi; zj)保持相似,即dM(zi1; zj1)≈dM(zi2; zj2),8xi; xj 2 C。

疑问:为什么距离回相似,既然是不同的嵌入空间,那么距离就不一定会相似的,两个高质量的样本也不一定是所有特征分布很稳定的。

证明。当只将与类相关的特征φ1 i和φ2 i送入每个分类器的顶层线性层时,在同一类标签yi的约束下,每个类别的输出概率应保持一致,即p(^ yi1=kjφ1 i )≈p(^ yi2=kjφ2 i ),8k2f1; ::; Kg。结合等式。1,我们有这样的表述。

疑问:既然承认了只提取类相关特征,不同模型就应该是相同的,那么又何来提取不同的嵌入特征呢?

 

 定义1.嵌入拓扑的稳健性。给定一个样本xi,它在嵌入空间Z中与其他样本的相对位置由'嵌入拓扑'定义为:t(zi) , (dM(zi; z1); ::; dM(zi; zN )) 。然后,距离度量'嵌入拓扑稳健性'定义为:。

属性3.高质量样本的嵌入拓扑稳健性r(-)大,接近1,而低质量样本对应的r(-)小。
对于数据不确定性σi≈0的高质量样本xi2C,由于dM(zi1; zj1)≈dM(zi2; zj2),8xj2C,那么jjt(zi1)-t(zi2)jj2将是一个接近0的小值,因此鲁棒性r(xi)将是一个接近1的大值。
对于具有较大不确定性σi的低质量样本xi2(XnC),嵌入拓扑结构的一致性将被破坏。见图3(a),根据上述分析,从类相关特征φi到φ1、φ2、φ3的Mahalanobis距离在Z1和Z2中保持相似,因此φ(-)(虚线箭头)之间的拓扑形状保持不变。但zi1和zi2的变化显然是由σi引起的,因此从zi到φ1、φ2、φ3的拓扑形状(绿色实线箭头)在两个空间中显示出很大的区别,这导致r(xi)减少。显然,较大的不确定性σi将引发拓扑形状的较大变化,导致较小的r(xi)。

候选者选择。我们把k类的所有输入xi的集合表示为Sk。为了生成k类的候选原型集Ck,我们首先找到具有最高嵌入拓扑稳健性得分的样本,即maxfr(xi)jxi 2 Skg。然后,r(-)值高于-maxfr(xi)jxi 2 Skg的样本被选入Ck,其中是一个预设的阈值。

4.2 多样化的原型集过滤 在将所有高质量的图像选入候选集C=fCigK i=1后,有两个问题等待着我们:(1)C可能是高度冗余的。如图3(b),X1附近的样本具有相似的外观和特征。这种冗余会在下一个多原型学习步骤中带来额外的计算成本。 一个直接的方法是设计一个过滤器来去除冗余;(2)同一类别中物体的多种视觉外观会导致不同的特征表示。例如在图3(b)中,X1、X2和X3出现在不同的视觉外观中,它们的嵌入位于不同的位置,象征着嵌入的多样性。这种嵌入的多样性在过滤过程中应该被保留下来。

在上述基础上,任务转向从获得的候选集C中生成最终的原型集P=fPkgK k=1,同时考虑到高质量和多样性。具体来说,对于每个类k,该方法应该找到具有局部最大值r(-)和大嵌入距离的样本来形成Pk,如图3(b)中的x1、x2和x3。 与NP-hard coreset选择(Sener和Savarese 2018)问题类似,我们的目标是为每个类k从Ck中选择T个原型进入Pk。 我们通过一个贪婪的算法反复收集原型来实现它,即

 对于初始化,我们通过maxfr(xi)jxi 2 Ckg搜索Ck中具有最大r(-)的候选者来初始化Pk,然后以迭代方式将满足公式8的候选者追加到Pk中。算法1中给出了详细的实现方法。

以图3(b)为例,x1具有最大的r(-),因此首先被选中,然后x3和x2相继被加入到最后的集合中,因为它们对应于E中的第二/第三大值d3和d2。注意高质量样本的Mahalanobis距离在Z1或Z2中保持相似,因此在任一空间计算Dk会导致类似的被选原型。

5 嵌入优化 生成的原型作为代表已知类别的锚,我们扩大不同嵌入区域之间的距离,为未知数保留更大的空间。因此,可以减少未知数被误判为已知类的风险。

5.1 基于原型的空间优化 给定属于已知类m的样本xi和Pk=fpk;lgT l=1,我们将xi到原型集Pk的距离表示为d(zi; z(Pk)),其中z(Pk)=(z(pk;1); ::; z(pk;T ))2RD×T是Pk中T原型的嵌入。然后,我们加入一个基于原型的约束条件,为OSR优化一个更好的嵌入空间。

 

其中Pu是其他类中最接近的原型集,δ是一个可调整的余量。与现有的在训练中联合学习样本嵌入zi和原型表示z(Pk)的方法(Yang等人,2018;Chen等人,2020)不同,我们通过直接将Pk中的固定原型样本送入当前嵌入模型来更新z(Pk),因此我们的模型可以专注于学习更好的样本嵌入zi。这样的训练策略是比较有利的,因为我们不仅避免了z(Pk)的不稳定学习,而且也减轻了zi的训练难度。最后,训练阶段的损失是一个组合。

 

其中Lcls是SoftMax损失,λp是平衡系数。此外,我们设计了一个新的具有自我关注的点对集距离度量(Vaswani等人,2017)机制,以有效地测量距离d(zi; z(Pk))。

 

其中pd是一个比例因子(Vaswani et al.2017),j - j表示L2准则。我们用zi来查询z(Pk)中的嵌入,以获得其与每个原型的相似性,并获得加权和zatt i (Pk)。然后通过参考zi和ziatt(Pk)之间的相似度来计算距离。我们共同考虑xi和所有多样化的原型之间的相关性,从而更全面地衡量点到集的距离。

5.2 拒绝未知样本

按照一般的惯例(Yang et al. 2020),采用两种拒绝规则来检测未知样本。(1) 基于概率的拒绝(PR)。我们通过阈值化SoftMax概率分数直接拒绝未知样本;(2)基于距离的拒绝(DR)。通过阈值化最小的点到集的距离来拒绝未知样本,即minfd(zi; z(Pk))g,其中Pk2P,因为未知样本与最近的原型集的距离应该比已知样本大。 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值