The Devil is in the Details: Self-Supervised Attention for Vehicle Re-Identification(翻译)

摘要 近年来,研究团体已经用基于注意力的模型来解决车辆再识别(re-id)问题,特别关注车辆中包含有识别信息的区域。这些re-id方法依赖于昂贵的关键点标签、部件注释和附加属性,包括车辆型号、模型和颜色。考虑到大量具有不同级别注释的车辆re-id数据集,严格监督的方法无法跨不同领域扩展。在本文中,我们提出了车辆重识别的自我监督注意(SAVER),这是一种有效学习车辆特定区分特征的新颖方法。通过广泛的实验,我们显示SAVER在具有挑战性的VeRi,VehicleID,Vehicle-1M和VERI-Wild数据集方面比最新技术有所改进。

关键词:车辆再识别,自监督学习,变分自动编码器,深度表示学习

1 简介

随着深度卷积神经网络(DCNN)的发展,重识别(re-id),识别图库中特定对象ID的所有图像的任务,近来已经发生了革命性的变化。这场革命在行人重识别领域最为显着。 Lou等[28]最近开发了一种强大的基线方法,该方法可以使用经验得出的“Bag of Tricks””来提高DCNN的判别能力,从而大大替代最新的行人重识别方法。这为研究界创造了一个独特的机会来开发创新而简单的方法来突破物体re-id的边界。
具体来说,车辆re-id在智能交通应用中具有巨大的潜力。然而,车辆重新识别的任务是特别具有挑战性的,因为不同身份的车辆可能是相同的制造、型号和颜色。此外,车辆的外观在不同的视点有很大的不同。因此,近年来基于DCNN的re-id方法注重区分区域,以提高对方向和遮挡的鲁棒性。为此,许多高性能的re-id方法依赖于对携带身份相关信息的局部区域的附加注释,即除了感兴趣对象的ID之外,关键点[41,16,17]和部分边框盒[11,46]。这些额外的注释帮助DCNNs联合学习改进的全局和局部表示,显著提高了性能[16,48],但代价是增加了复杂性。尽管提供了相当大的好处,但是收集昂贵的注释(如关键点和部件位置)不能适应不断增长的车辆re-id数据集。随着制造商改变其车辆的设计,研究界承担了标注新车辆模型的繁重任务。 为了无需昂贵的注释即可重新设计车辆标识管道,我们建议SAVER自动突出显示车辆图像中的显着区域。这些车辆特定的突出区域携带着关键的细节,这些细节对于区分两辆视觉上相似的车辆至关重要。具体来说,我们设计了一个可变的自动编码器(VAE)[19]来生成一个车辆图像模板,该模板不受制造商标识、挡风玻璃贴纸、车轮图案、格栅、保险杠和头/尾灯设计的影响。通过获得此粗略重构及其与原始图像的像素差异,我们构造了残差图像。 此残差包含重新识别所需的关键细节,并用作突出显示图像中区分区域的伪显着性或伪注意图。 图1显示了残差图如何突出显示在两个视觉相似的车辆之间重新识别所需的有价值的细粒度细节。
在这里插入图片描述
图1所示 将车辆图像分解为粗重构和残差图像。最左列(a,e):车辆图像,第二列(b,f):粗化重建,第三列(c,g):残差,最右列(d,h):归一化残差(便于可视化)。尽管有相同的粗糙重建,但两辆车有不同的残差突出关键区域,如挡风玻璃贴纸,保险杠设计。
本文的其余部分组织如下。在第二节中,我们简要回顾了车辆识别方面的最新研究成果。在第3节中讨论了所提议的方法中每个步骤的详细架构。通过第4节中广泛的实验,我们展示了我们的方法在多种具有挑战性的车辆re-id基准上的有效性[43,22,9,27,24],获得了最先进的结果。最后,在第5节中,我们验证我们的设计选择。

2 相关工作

学习强大而有区别的车辆表示,以适应多个摄像机之间较大的视点变化,照明和遮挡对于重新识别至关重要。 由于大量文献,我们简要回顾了有关车辆重新识别的最新著作。借助深度学习的最新突破,我们可以通过从大规模车辆数据集中获取图像来轻松学习车辆的有区别的embeddings,例如VehicleID, VeRi, VERI-Wild, Vehicle-1M, PKU VD1&VD2 [43], CompCars [44], and CityFlow [40],来训练DCNN,该DCNN稍后将用作re-id的特征提取器。 但是,对于相同品牌,型号和颜色的车辆,这种全局深度表示通常无法区分两个外观相似的车辆。针对这一问题,提出了一些辅助特征和策略来增强学习后的全局外观表示。Cui等[4]融合了经过不同目标训练的各种DCNN的融合功能。Suprem等[36]提出将re-id模型集成用于车辆标识和属性以进行鲁棒匹配。[41, 23, 46, 11, 16]提出通过融合全局特征和从突出的车辆部件和区域(如前灯、后视镜)学习的辅助局部表示来学习增强表示的方法。此外,Peng等人[31]在学习辅助局部表示之前,利用一种图像到图像的平移模型来减少来自不同摄像机的车辆图像的跨摄像机偏倚。Zhou等[50]通过视角感知注意力学习车辆表示。类似地,[48,32]利用车辆属性分类引导的注意力,如颜色和车辆类型,学习基于属性的辅助特征,增强全局表示。度量学习是使表示更具区分性的另一种流行方法。[47, 2, 3,21]提出了不同的三元组损失,在不同的视点和载体上仔细选择难三元组,以学习改进的外观鲁棒表示。另外,为了增强训练数据,提高训练的鲁棒性,[45]采用了图形引擎,[42,39]使用生成对抗网络(GANs)合成具有不同方向、外观变化等属性的车辆图像。[25, 26, 34, 38, 14, 29, 15]提出了利用时空和多模态信息(如视觉特征、车牌、相机间车辆轨迹、相机位置和时间戳)提高匹配性能的方法。
与先前的方法相比,SAVER受益于自我监督的注意力生成,并且不承担对任何额外注释,属性,时空和多模式信息的访问。

3 车辆识别的自我监督注意力

我们提出的管道由两个模块组成,即自我监督残差生成和深度特征提取。 图2提出了建议的端到端管道。 自我监督的重建网络负责创建车辆图像的整体形状和结构,同时模糊区分性细节。这使我们能够突出显示显着区域并通过从输入图像中减去重构来消除背景干扰物。 接下来,我们将残差和原始输入图像的凸组合(具有可训练的参数α)馈送到ResNet-50 [12]模型,以生成鲁棒的判别特征。为了训练我们的深度特征提取模块,我们使用了“Bag of Tricks”[28]中提出的技术,并将其用于车辆再识别,提供了一个强大的基线。
在这里插入图片描述
图2 建议的SAVER管道。输入图像通过基于VAE的重建模块来去除车辆特定的细节。 接下来,从输入图像中减去重建图像,以形成包含车辆特定细节的残差图像。随后,计算输入和残差的凸组合(具有可训练的参数α),并将其通过re-id主干进行深度特征提取。 整个管道通过三元组损失和交叉熵损失进行训练,并通过[28]中提出的批处理归一化层(BNNeck)进行分隔。

3.1 自监督残差生成

为了生成车辆的粗略形状和结构,同时去除小规模的区分性信息,我们利用图像分割[1]和生成[19]中的现有工作。具体地说,我们构建了一种新的VAE架构,通过最大pooling将空间大小的输入图像H × W向下采样到空间大小的潜在空间中(H/16)×(W/16).之后,我们通过其均值和协方差将[19]中介绍的重新参数化技巧应用于潜在特征。 接下来,我们按照[30]的建议对潜在特征图进行上采样,以防止棋盘伪像。 此步骤生成大小为H×W的重建图像。图3说明了所提出的自监督重建网络。
形式上,我们使用均方误差(MSE)与Kullback-Leibler (KL)散度对重构模型进行预训练,从而在这里插入图片描述
在这里插入图片描述
图3.后续残差生成所需的自我监督图像重建。输入图像经过卷积编码器,并被映射到三维潜在变量。使用VAE重新参数化技巧,通过潜在变量的均值µ和协方差Σ绘制标准多元高斯样本并进行缩放。 最后,用卷积解码器对θ进行上采样,以生成删除了最细粒度细节的输入图像模板。

在训练我们的端到端管道(如第4节所述)之前,我们在4.2.1节中介绍的大规模Vehicle Universe数据集上对这个模型进行了预训练。这种预训练使重建模型可以泛化到具有更大类型、模型、颜色、方向和图像质量的车辆图像上。因此,它捕获域不变特性,这些特性稍后可以针对特定数据集进行微调。此外,预训练提高了端到端管道训练的收敛速度。值得注意的是,与传统的VAE实现不同,我们使用三维的潜特征图,即通道、高度和宽度维度,而不是只有通道维度的一维潜向量,以提高重建质量并保留更多的空间信息。此外,我们在计算Eq. 1时缩放LKL,以提高重构质量。我们在第5节中进一步探讨了KL散度缩放因子的影响。自监督图像重构网络生成粗图像模板Ig后,我们将其从原始输入中减去,得到残差图像,即Ir = Io−Ig。

3.2深特征提取

由于车辆图像驻留在一个高维的流形上,我们使用DCNN将图像投影到一个低维的向量空间上,同时保留能有效地描述车辆独特身份的特征。为此,我们使用单分支ResNet-50。为了训练该模型,我们使用“ Bag of Tricks” [28]中提出的技术,这些技术可以帮助DCNN使用基于梯度的优化方法更有效地遍历优化环境。 特别是,我们观察到以下技术对车辆re-id基线模型的性能有重大贡献:

  1. Learning Rate Warm-Up:[6]建议在训练的初始阶段线性增加学习率,以获得改进的权值初始化。这大大提高了我们的基准性能。
  2. Random Erasing Augmentation (REA):为了更好地处理遮挡问题,[13]引入了随即擦除增强REA,目的是鼓励网络学习更鲁棒的表示。
  3. Label Smoothing:为了缓解训练数据的过拟合问题,[37]提出了对地真标签进行平滑处理。
  4. Batch Normalization (BN) Neck:为了有效地将分类损失和三联体损失应用到提取的特征中,[28]提出了一种BN层。这也显著提高了车辆重新识别的性能。

训练ResNet-50特征提取器模型对三元组损失和交叉熵分类损失进行优化,计算如下:
在这里插入图片描述
在这里插入图片描述

3.3端到端训练

在对自监督残差生成模块进行预训练后,我们共同对VAE和深特征提取器进行了训练。我们使用可学习的参数α计算输入图像的凸组合及其各自的残差在这里插入图片描述
允许特征提取网络加权每个输入源的重要性。此外,端到端训练帮助整个管道适应残差生成,使其适合于re-id任务。综上所述,端到端培训的损失函数为:
在这里插入图片描述
在等式中,在图6中,比例因子η根据经验设置为100。

4 实验

在本节中,我们首先展示了不同的数据集,在这些数据集上我们评估所提出的方法,并描述了车辆再识别系统一般如何评估。接下来,我们给出了所提出的自监督残差生成、深度特征提取和端到端训练步骤的实现细节。最后,我们报告了该方法的实验结果。

4.2实现细节

本文讨论了自监督残差生成模块和深度特征提取模块的实现。通常,我们将所有图像调整为(256,256)大小,并在将它们通过各自的网络之前,将RGB通道上的平均值和标准偏差标准化为0.5。 此外,类似于[17],我们使用Detectron物体检测器[7]对所有实验中的所有图像进行预处理,以将背景噪声降至最低。

4.2.1自我监督的残差生成

为了对自监督残差生成模块进行预训练,我们构造了大型Vehicle Universe 数据集。我们特别考虑了来自不同分布的车辆,以提高我们模型的健壮性。我们利用了多个来源的数据,包括CompCars, StanfordCars, BoxCars116K, CityFlow, PKU VD1&VD2, Vehicle-1M, VehicleID, VeRi和VeRi-Wild。总的来说,Vehicle Universe在训练,测试和验证集中分别具有3706670、1103404和11146个图像。

4.2.2深度特征提取

如3.2节所述,我们使用ResNet50进行特征提取。在我们所有的实验中,学习率都是从
3.5e−5,在前10个epoch中随3.1e−5的斜率线性增加。此后,它每隔30个epoch就衰变10倍。总的来说,通过Adam[18]优化器,端到端管道被训练为150个epoch。此外,我们对凸组合使用初始值α= 0.5,对等式(4)中的三元组损失使用γ= 0.3。

4.3实验评价

在本节中,我们给出了在4.1节讨论的不同re-id基准集上的全局外观模型(基线)和自监督注意增强的全局外观模型(保护)的评估结果。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值