ICCV‘21 paper Vehicle Re-Identification 阅读笔记

"Self-Supervised Geometric Features Discovery via Interpretable Attention for Vehicle Re-Identification and Beyond"

Abstract

        为了学习可区分的模式,最近在车辆重识别(ReID)方面的大多数工作都在努力重新开发官方基准以提供各种监督,这需要大量的人力劳动。在本文中,我们试图实现类似的目标,但不涉及更多的人力劳动。为此,我们引入了一个新的框架,它成功地编码了几何局部特征和全局表征来区分车辆实例,仅通过官方ID标签的监督来优化。具体来说,鉴于我们洞察到ReID中的物体具有相似的几何特征,我们建议借用自我监督的表示学习来促进几何特征的发现。为了浓缩这些特征,我们引入了一个可解释的注意力模块,其核心是局部最大值聚集,而不是完全的自动学习,其机制是完全可以理解的,其反应图是物理上合理的。就我们所知,我们是第一个进行自我监督学习以发现几何特征的人。我们在三个最流行的车辆识别数据集上进行了综合实验,即VeRi-776、CityFlow-ReID和VehicleID。我们报告了我们最先进的(SOTA)性能和有希望的可视化结果。我们还展示了我们的方法在其他ReID相关任务上的出色可扩展性,即人的ReID和多目标多摄像头(MTMC)车辆跟踪。

1.Introduction

        旧的方法虽然性能可以,但是却需要大量人力,限制了适用性。

        所以需要研究出 能够集中于车辆信息,但不需要如此复杂人力的ground truths的方法。

        作者提出了一种 学习车辆ReID的全局表征外,还成功的学习辨别性的几何特征

具体来说,自我监督学习被用来优化一个编码器网络,在自动生成的地面实况的监督下,该网络被用来浓缩低层次的车辆表征。编码后的车辆表征被送入引入的可解释的注意力机制,以获得一个注意力图。通过对另一个低层车辆表征的加权,我们获得了强调车辆识别特征的兴趣区域。

综上所述,

- 我们是第一个在没有监督的情况下从细粒度的注释中成功地学习到车辆识别的信息性几何特征。
- 我们引入了一个可解释的注意力模块,其设计很容易解释,其集中点是物理上的重要位置,以突出自动感兴趣的区域。
- 我们报告了我们提出的方法在广泛使用的车辆识别基准上的SOTA性能,即VeRi-776[33]、CityFlow-ReID[50]和VehicleID[31],与所有现有的工作,包括那些涉及更多来自手工注释的监督。我们还可视化了我们的框架学到的可靠和一致的几何特征。
- 我们对人的ReID和MTMC车辆跟踪的直接转移实验证明了该建议的出色可扩展性。

2.Related works
        Vehicle ReID.
        Visual attention.
        Self-supervised learning. 作者的自我监督学习用来促进几何特征的发现,这是别的paper没有的。

        与 SAVER不同的是:1.自监督学习规范可解释性注意力。2.简介。3.效果好

3.Self-supervised geometric features discovery via interpretable attention

        

        如图所示,为了同时学习自监督的几何特征和全局表征,我们的框架由全局分支(GB)、自监督学习分支(SLB)和几何特征分支(GFB)组成。每个分支都有自己的功能,同时也相互影响。一般来说,GB被用来对输入图像进行稳健的全局编码。SLB执行辅助性的自监督表示学习。通过与SLB共享其编码器,GFB能够从自动发现的几何位置中发现鉴别性特征,而不需要相应的监督。

3.1

Given a query image, vehicle ReID is to obtain a ranking list of all gallery images according to the similarity between query and each gallery image. The similarity score is typically calculated from deep embeddings, i.e., cos(f(xq; θ), f(xg; θ)). Here f(·; θ) represents a deep network with learnable parameters θ; xq, xg are query and gallery image respectively; cos(·) denotes cosine similarity computation. f(·; θ) is optimized on a training set D = {xi, yi}N i=1, where xi, yi are a vehicle image and its identity label and N is the number of training samples.

相似性得分由 deep embeddings 计算,即。这里代表一个具有可学习参数θ的深度网络;xq,xg分别是query和gallery image;cos(-)表示余弦相似度计算。f(-;θ)在训练集上进行优化,其中xi,yi是车辆图像及其身份标签,N是训练样本的数量。

3.2 Self-supervised learning for highlighting geometric features
        自监督学习相当于在机器生成的伪标签的监督下优化一个深度网络。其中,图像旋转度预测,即通过随机角度旋转图像并训练分类器进行预测,已经在许多任务中证明了其能力[14, 64, 11, 29]。车辆识别可以被看作是一个实例级的分类问题,即所有图像都包含相同的物种,但有许多实例。因此,每张图像中的突出对象都有类似的几何属性,例如,形状、轮廓和骨架。我们认为,训练一个网络来预测随机旋转的车辆图像的旋转度,可以鼓励它关注这些可靠的、共享的几何属性(对于person-ReID也是如此),这可以帮助轻松识别物体的旋转。这种几何信息已被证明对区分车辆实例至关重要且具有鉴别力[55, 24],尽管它是由手工注释的关键点表示的,如图1(a)。

        具体来说,我们首先将D中的图像xi旋转0◦、90◦、180◦或270◦(分别赋予0、1、2或3类),生成一个新的数据集. 随后,图像被送入一个共享编码器(即图2中的注意力编码器)以提取低层次语义,为了预测旋转类别,需要从fae(xi,r; θae)中进一步浓缩高层次的表征。我们附加另一个深度模块来实现这一目标。这样就得到了一个高维的嵌入向量:

        

        其中GAP[-]表示全局平均池化操作。为了在嵌入空间中产生更紧凑的聚类,采用余弦分类器(CC)来分配旋转类。CC的可学习参数是,其中d是向量的维度,b是类的数量(即b=4(0,1,2,3))。将输入图像分配到每个类别的概率可以表示为,其中每个元素为

        Softmax[-]和γ分别代表归一化指数函数和可学习标量。最后,自监督学习的目标函数为

        其中CE(-)是交叉熵损失函数。很明显,Lslb的优化迫使深度分类器,特别是子网络,从输入图像中捕捉几何特征。


如何理解:

         首先作者将输入 进行旋转 四种角度,并分别赋予 0,1,2,3类,至此产生新的数据集Dsl。

        再,将D中的图片 Xi,r 送入注意力编码器(图二黄色部分)fae(xi,r; θae) ae即attention encoder。

        又 为了预测旋转类别,浓缩高层次特征,所以附加了一个模块 fse,即图中紫色部分。通过Fse(Fae(xi,r:θae);θse),得到了高维向量。

        在通过GAP(全局平均池化)操作,使得更浓缩。

        最后为了更紧凑从而得到预测旋转类,采用余弦分类器(CC)来分配旋转类。Wj为可学习参数,最后经过softmax得到 属于某一个旋转类的分数。

        最终来看自监督学习的目标函数,采用CE交叉熵损失整合。

3.3. Discriminative features discovery via interpretable attention
        可鉴别性的特征发现 凭由可解释的注意力

        共享编码器Fae已经提取了低层次的几何特征,这里作者引入IAM(可解释注意力模块),不包含学习参数。可视化显示。

        

 其中是由fae(-; θae)从输入图像xi中提取的三维张量,c、h、w分别表示通道、高度和宽度维。为了发现空间维度上的局部兴趣点,首先沿L中的每个通道对每个点的邻域进行Softmax[-],即:

 其中,N(u,v)表示第k个通道中位置(u,v)周围边长为K的平方邻域集。

同时,从L开始对所有通道进行非最大抑制(NMS)计算,以突出重要特征通道,即

 为了将上述的局部空间最大值通道最大值全部考虑在内,

Q˜是由M和G的 element-wise 得到的,然后是通道维度的最大化,即

  

我们最终的关注点Q是由Q˜的空间归一化得到的,它把所有的局部最大值考虑在一起,并聚集了全部的关注点。

Q代表激活张量L的空间重点,即输入图像xi的关键点。因此,如图2所示,将从xi中提取的另一个全局表征与Q作为鉴别性的几何特征进行加权是合理的。我们的注意力部分受到[10]中soft landmark detection 的启发,但与他们的明显不同。


如何理解:

         IAM发生于出现高维向量L之后,这里的L 自认为是 Fae

        之后分别,1:逐通道的 对每个点的邻域进行Softmax 以得到 channel中的 感兴趣点。

                          2:对每个通道进行NMS,以突出重要特征的channel。

        又,为了将两者考虑在内,增加了一个Q= M · G ,然后 最大值Q~ 即 每一个channel中 存在一个位置uv使得Q最大。 / 全部值(所有的Q的最大值) 也就是归一化了。

得到最终关注点Q。

3.4. Overall optimization objectives
        为了优化整个框架,我们将SLB的CE损失、, the hard-picked Triplet loss of GFB and GB (Tri 和平滑交叉熵损失(SCE) 结合起来作为我们的最终目标。Tri和SCE损失的优化参考了Batch Normalization Neck(BNNeck)的组合机制。我们的总体目标是

为了避免超参数的重度调整,我们在所有的实验中简单地将重要性系数λGB T ri, λGB SCE, λGF B T ri , λGF B SCE设置为0.5。只有λSLB在消融研究中进行了微调,并在最终实验中设置为1.0。
在推理过程中,SLB被放弃了。来自GB和GFB的两个特征向量被串联起来作为输入图像的表示。

3.5. Network architecture
        每种颜色代表一个子网络。选择ResNet50,将conv5 x中的stride = 2替换为stride = 1,作为GB的骨干网络。它被分为两个子网络,即第一个(conv1, conv2 x, conv3 x)和第二个(conv4 x, conv5 x),分别用绿色和红色表示。SLB和GFB之间的共享编码器由ResNet18(橙色)实现,其在conv4 x, conv5 x中的stride被设置为1。在SLB中,另一个子网络(紫色),由两个基本的ResNet块组成,stride=2,被附加到编码器中以进一步浓缩特征。在GFB中,每幅图像首先通过注意力编码器进行8次降采样,然后用IAM处理得到的张量,从而得到注意力图。通过元素相乘,它被传播到GB骨干网的第一个子网络的每一个特征通道,然后是由conv4 x′,conv5 x′组成的另一个子网络(蓝色)。

4. Experiments
        4.2. Visualizations of discovered geometric features through self-supervision 通过自我监督发现的几何特征的可视化

        作者用GFB的注意力图覆盖了一张输入图像,以可视化框架所学习的关键车辆部件。尽管几何特征是在没有像其他人那样使用精确监督的情况下发现的,但定性的可视化显示了方法的优越性。

 左边是以前的工作,手动标注gt,右边是该paper自监督学到的几何特征。表明了没有gt下也成功的得到的ReID的关键信息。


跨视角和场景的一致性。为了验证所学几何特征在不同视角和场景下的一致性,我们选择了几张图片,属于一个相同的车辆实例,但从不同的视角和不同的相机拍摄,在图4中进行了可视化。每一行代表一个车辆实例。尽管每张图片的视角、物体比例和背景都有很大的不同,但在同一实例中发现了相同的车辆部件,例如雾灯、车顶和车轮。


4.3 Ablation stud
        作者说明该框架下 增加分支也可以加大性能。

        IAM

4.4 Generalizing to other ReID related tasks

5 Conclusion

        在本文中,基于我们对ReID图像中突出物体具有相似属性的观察,我们提出了一个新的框架,通过执行自我监督的任务,在没有细粒度注释的监督下学习几何特征,用于车辆ReID。为此,我们还引入了一个可解释的注意力模块来发现物理上合理的特征。综合实验从质量和数量上证明了我们方法的有效性和通用能力。在未来,我们计划将其推广到解决细粒度的分类问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Tecypus

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值