ICCV‘21 paper Vehicle Re-Identification 阅读笔记2

'Heterogeneous Relational Complement for Vehicle Re-identification'
 

异质的关系补充

Abstract

        在车辆重识别任务中,难点是从不同角度的摄像头所拍摄的图片中,准确地寻找出相同的车辆,而要有效地解决该问题,需要网络能够学习到车辆在不同角度的不变特征。为了能够获得这个鲁棒的表征,本文提出一种新型的异质关系互补网络(HRCN),该网络将特定区域特征和跨层特征作为增补特征,来增强高层表达。考虑到这些特征存在异质性,各个特征之间的分布特征以及语义信息都不尽相同,为此本文在HRCN中设计一个图关系模块,将这些异质特征嵌入到统一的特征空间。此外,本文提出一种新的评价指标Cross-camera Generalization Measure (CGM),相较CMC和mAP,CGM具备更强的位置敏感性以及更好的跨摄像头泛化惩罚。实验结果表明HRCN在VehicleID和VeRi-776数据集上均达到state-of-the-art。

1.Introduction

        跨摄像头下,有挑战。

        一类加数据集,一类加特征补充(如 更多的标注形式)。

        本文在没有任何注释的情况下学习区域互补embedding ,该方式以循环方式(图1 a)提取车辆 parts。

认为集中于 ”apriori “ 的车辆部分有利于各种视角的转换,使得高层特征意识到可辨别的区域,另一方面,高层特征只关注有限的局部特征或噪声,而低层特征虽缺乏突出关键区域的能力,但包含整个车辆的丰富语义信息,所以作者将来自不同网络阶段的跨层次特征进行最终 embeddings的 补充。(图1 b)

        但融合也需要方法,所以提出了 HRCN,异质关系互补网络,构建动态关系,以融合跨级别和跨区域的特征。为学习这种关系,提出了一个基于图的关系模块来学习动态投影到新的特征 embedding,。在跨等级的 互补分支中,构建了一个从低级到高级的分层动态融合关系,鼓励对高级的语意补充。在区域互补分支,除了部分先验外,将跨级特征和区域部分特征结合起来,形成一个联合的关系意识表达,用于最终的分类。

        另一个角度,现有措施 CMC和AP,忽略了相机ID的分布,为解决缺陷,提出了一个新的测量方法,即跨相机通用测量,CGM。引入了两个主要考虑因素:

        1)位置敏感度:在每个与相机无关的查询中,对重要性较高的早期错误进行惩罚;

        2)跨相机泛化:将每个相机上的查询视为单独的检索任务。
本文的贡献有三个方面:1)我们提出了一个新颖的异质关系互补网络,将高级特征与异质互补特征(即多级特征和区域特征)基于它们的关系融合成一个稳健的表示特征。2)我们设计了一个新的衡量标准,名为跨镜头泛化衡量标准,以更合理地评估模型的跨镜头泛化能力。3) 我们进行了大量的实验,发现所提出的方法在VehicleID[17]、VeRi-776[19]和VERI-Wild[22]上的表现优于最先进的方法,并利用我们提出的衡量标准建立了一个现有模型的基准,CGM。

2. Related Work
3. Approach

3.1Overview

        在这一节中,我们介绍了一个异质关系互补网络(HRCN)来构建基于动态图的区域和跨层特征互补的关系。如图2所示,我们的关键想法是为这些区域特定和层特定的特征建立动态的可学习关系。给定一个输入图像I,让是第i个网络阶段中N层的串联特征,它是由全局池化操作挤压出来的。
        我们首先在第3.2节中,通过使用第3.4节中提出的基于图的关系模块G,建立一个分层的跨级关系。然后我们从第二阶段提取特征,形成的跨层融合。按照这种方式,通过建立等,也可以利用来自更高阶段的特征。我们把特征集V的第n个动态聚合表示为。除了跨层关系,我们在第3.3节中进一步提出了一个区域特征补充,用于增强S先前的区域特征fr,而无需额外的注释。因此,来自这两个分支的异质特征被融合,以实现最终的嵌入E与关系连接R(-)。

因此,通过利用可学习的图关系,可以建立一个异质特征的动态融合过程。它赋予网络一种自我导向的能力,根据语义关系动态地选择信息特征。 

        

 3.2. Cross-level Feature Complement

        低层特征包含整个车辆的丰富信息。在低级别的补充下,高级别的特征可以在两个方面得到改善。1)关注更多的鉴别性区域。2)避免完全落入非关键区域。

        为解决聚合问题,作者将跨层次的特征投射到一个统一的空间。以他们的关系密切程度为指导,将较高的融合系数设给更近的那一个,并基于各自的系数聚合所有不同的levels,这种新的embedding不仅保留了原有的语义信息,也消除了他们之间的差异。考虑到低level的互补position,将所有low stage的 feature 作为 更高 stage的 特征,这保证了 高 levels 的 主导地位。

        一个block中选择最终输出特征作为相应level的特征。为了减少计算和内存成本,第i stage 的第j个block的特征通过全局平均池化(GAP)被挤压成一个向量,然后通过线性变换(Linear transformation)将其channel与其他level对齐。这些跨级对齐的向量(cross-level aligned vectors)将被串联(concatenated)为一个整体,定义为

        其中,k是第i个stage所选blocks的数量,W是一个可学习的权重矩阵,代表concatenation operation。
        然后,串联后的向量将被送入基于图的关系模块,进行关系聚合,这可以将异质特征嵌入到同一表示空间。融合之后,融合后的向量将作为低级互补特征进入下一个阶段。在最后的关系融合阶段,我们将最终融合的向量分成几个代表各自层次特征的向量。最高级别的向量被送入区域特征互补分支,以学习区域特征的互补信息,其他拆分的向量将根据其重要性使用1×1卷积投射到不同的子空间。


理解:

        主看左下角CC分支,ResNet每一阶段的特征提取后,它是以每一个stage的各个block为基础进行操作的,首先每个block经过一个GAP全局平均池化,压缩为一个向量vector这里还需要注意此时每一个block压缩后的Vector的 channel是不同的,需要经过一个 linear transform 通道对齐,然后将当前stage的各个V concat串联起来,此时还没有 cross-level。 (resnet每个阶段 block后的输出都是一致的channel和hw,那么这个线性转换是在哪呢,目前认为是在GRM最后那里转换成的 1*NC,用于后边和stage+1的 vecter通道对齐然后concat)

        此时输出为N*C1。N为blocks个数。再经过一个GRM模块,获得新的输出,这个GRM稍后在3.4再讲,最后得到 1*NC2的vector。(这里的N*C2为stage+1的channel数),这时候得到的向量 也去和下一个stage经过GAP之后的那些通道为NC2的 向量 concat。

        再GRM,就形成了 1*NC3,就这样最后会生成 一个 1*NC4的向量。

        最后将这个向量 split 成 对应 各自 level 特征的 一些向量。最高级别的向量送入RCB,其他的向量根据重要性使用1*1卷积 project 到 不同的子空间。

这里GRM最后返回的是1*NC2

3.3. Regional Feature Complement

        与之前使用额外的手工注释的工作不同,我们引入了一个新颖的渐进式中心集合,以对齐多个身份的不同区域。通过局部对齐的区域,模型有能力在一个统一的embedding中测量跨视角的特征。此外,使用检测或分割模型构建区域信息将导致语义一致性的不稳定,即检测器通常无法在复杂场景中定位正确的部分,这将导致灾难性的过度装配。

        值得注意的是,在车辆ReID中存在一个有意义的prior,即所有的图像都被严格裁剪和对齐以形成整体的物体。从这个prior开始,我们可以观察到关键区域通常存在于一个图像的中心。随着图2中感受野的扩展,逐渐得到了一个车辆的更丰富的特征,但也引入了更多的背景混淆。因此,我们用S个局部区域构建金字塔中心特征,然后采用ROI投影(project)操作[7]来提取其区域特征,不需要任何额外的计算成本。
        center pooling操作以逐步的方式将鉴别性区域纳入到局部特征中。例如,区域互补分支图2中的车辆在第一个pooling金字塔中关注窗口区域,而在第二个金字塔中,attention区域被扩展到包括灯光和侧面。在center pooling下,可以看到局部特征所包含的判别信息是由少到多,由集中到泛化,使得局部特征具有泛化的信息
        假设以给定的图像I\inRW×H的左下角为坐标原点,第k个区域的圆形中心掩膜区域M可以表述为

其中Rk表示第k个圆的半径。有了提取的掩膜区域,我们对全局特征\!进行重新投影(re-Project)P(-),形成区域embeddingfr:

其中φ表示global average pooling。Wk和Bk表示线性变换(linear transformations)的可学习权重。
然后,这些特定区域的向量和通过squeezing 产生的全局向量被作为异质互补(heterogeneous complements),用于跨级互补分支的最高级别融合向量(CC分支的右下角)。通过基于图的关系模块,构建了一个跨级特征与区域特定特征的联合。taking 其他的lower level,一种联合关系感知的embedding就形成了:

 其中,是第n阶段的第l个level融合向量。


 理解?

        作者使用 S个局部区域构建金字塔中心特征,用来结合 backbone最后的 global feature map也就是最后的特征图,进行project得到局部特征。也就是图二中的 先是窗口,再是灯光,再更泛化。

        实际这里应该就是设立一个金字塔pooling模块,循环pooling,提取由细到粗的特征。然后这些特定区域的特征是稍后为了 服务的。

        这些特定区域特征经过GAP,和 送入backbone最后的输出经由GAP squeezing 后的全局向量会作为 异质补充,用于 cross-level complementary brach.

        三者 concat后,形成一个N*C1的fea,送入GRM,返回一个 1*NC2的向量,这个向量,与CC分支右下角的 除最high之外的其他level 的向量 结合,用于计算loss。

        这里的 和其他level 的向量融合,怎么融合的,有点不懂,根据远近的融合系数是放在这了吗?还是啥,麻烦看懂了的 评论区解答一下!

        

3.4. Graph-based Relation Module

        介绍了基于图的关系模块的构建过程,包括图的构建和关系融合,如图3所示。


        一个用于保持channel不变的关系融合,另一个用于实现channel-squeezed的关系融合

        图形构建中的关键问题是如何计算动态关系边和确定边的连接方式。为了构建这个边,我们把两个特征之间的相似性作为它们的关系权重,其计算方法是:

其中,A(vi; vj)代表第i个特征和第j个特征之间的边缘权重。
计算完边缘权重后,将构建一个完整的图(Dot)。然而,完整的关系图不仅需要很高的计算成本,而且由于失去了中间节点的过渡效果而降低了图的表示能力。为了使完整的图变得稀疏,我们通过设置一个阈值(threshold)来消除一些关系边,这个阈值可以被表述为:

其中α是代表阈值的超参数
然后我们采用L1归一化,将每一行的边缘权重限制在(0;1)的范围内。为了避免失去原有的语义信息,我们在关系矩阵A'中加入一个身份矩阵,以保持它自身的主导地位,然后利用 re-normalization (这里应该就是图三的 graph normalization)技巧来近似 the graph-Laplacian:

A^是归一化关系矩阵,D是对角矩阵,Di;i = ...

对于图3中的关系融合,我们提出了一个依靠归一化关系矩阵(normalized relation matrix)A^和可学习权重矩阵的两步融合。在第一步中,异质特征将乘以关系矩阵,以消除统一的高维空间中特征之间的差异。随后,设置一个权重方阵与关系特征相乘,以保持通道不变的特性,避免在训练中损失更多的信息(图三左下角的 两个×)。在第二步中,我们不仅要促进第二次关系融合,还要通过调整权重矩阵的大小来squeeze dimensions of features。为了防止过度拟合,在权重矩阵乘法后加入了一个dropout层。同时,在每一步中,我们在输入和输出之间取一个residual(残差)连接(orin和经过分支后的连接,看resnet),以抑制梯度消失。每一步输出O的融合过程可以定义为:

 Wr是通道转换的权重矩阵,Wa是一个可学习的张量,将V中的特征通道与输出O对齐。


 理解:

        首先将输入N*C1作为orin, transpose后的为 orin_t, 两者通过Dot构成图。

        构图还需要边,边的存在与否,边的关系,权重大小,由 两个特征之间的相似性 承担,计算方式如上。

        再使用一个 threshold 方法 消除一些边。

        再L1归一化,还加了一个身份矩阵

         再 normalization,这个 A^ 用笔画画,实际是一个归一化操作。最后得到 Graph Construction的结果,以下称之为NRM。

        

        再看关系融合模块,实际是两步融合,依靠NRM和新的两个权重矩阵。

        第一步,将输入进来的特征和NRM相乘(消除特征间差异),再乘以权重矩阵1(保持channel不变)。

        第二步,权重矩阵2乘以 step1的输出,这时候权重矩阵2的权重大小就变了,因为第二步是要 实现channel-squeezed的关系融合。

        再每一步的 乘以权重矩阵后,需要经过一个 Dropout+BN+ReLU

        另外类似resnet残差结构,还需要和 一开始的输入进行一个 相加

        最后得到输出。

这里GRM最后返回的是1*NC1 ,上边是NC2 是有啥错误吗,还是我没读明白,麻烦有了解的评论区解答一下!

 4. Measure
        4.1. Limitations of Current Measures
                AP的不足

        4.2. Cross-camera Generalization Measure
                首先将从相同相机拍摄的目标图像分成独立的组,即CGM通过从排名列表中删除从其他相机拍摄的目标图像,形成一个独立的子图库,独立地衡量每个相机的排名结果。给定一个查询身份q和一个特定的相机Ci,提议的1-查询1-相机CGM有以下形式:

其中,NCi表示从Ci拍摄的目标图像的数量,E(k)表示排名列表中第k个目标图像之前的错误样本的总和。
考虑到所有相机的性能,1次查询的NC-相机CGM可以定义为

对于有N个查询的NC-camera设置的广义Re-ID任务,我们提出了平均跨相机泛化测量(mCGM):

有了这个定义,在此我们详细阐述了两个观点,以揭示测量车辆Re-ID任务的发现。
        对位置敏感的能力。如上所述,检索列表中较早的错误应该得到更多的重视。每个错误样本都应该对其位置之后的所有样本留下负面影响。然而,AP关注的是整个画廊的正确性,因此对错误位置不敏感。为了解决这个问题,CGM采用了一种折扣策略,将目标样本前面的错误样本的总和作为惩罚因素(在公式(10)中表示为E(k1)+1)。因此,采用这种折现策略有两个优点:1)它可以将惩罚线性地传递给错误位置之后的正确样本,这就避免了将错误位置转发到后方位置的影响的衰减。2)由E(k1)+1计算的惩罚因子的梯度随着错误样本的增加而逐渐减少。这改善了转发错误的影响,使该措施对错误位置更加敏感。
        跨镜头泛化能力。为了考虑跨相机的泛化能力,CGM通过删除公式(10)中最终排名列表中其他相机拍摄的目标图像,独立计算每个相机的得分,并在公式(11)中平均每个相机的值。
在图4中,我们说明了当错误逐渐插入到正确列表中时,CGM急剧下降,而AP的表现不明显。
与AP相比,所提出的CGM不仅关注整体的排名分布,还关注错误位置的敏感性和独立于每个摄像机的性能。位置敏感性使得评价分数由正确的排名而不是整个列表的正确比例决定。每个摄像头的依赖性确保了CGM是一个摄像头级别的衡量标准,能够牢固地满足跨摄像头泛化的要求。

 

5. Experiments
6. Conclusion
        在本文中,我们提出了一种新的异质关系互补网络(HRCN),将跨层次的特征和特定区域的特征作为高层次特征的补充。有了这些异质互补的特征,最终的表示可以集中在更多的鉴别性区域上,这些区域对于识别不同视角的身份至关重要。实验结果显示,我们提出的方法在VeRi776、VehicleID和VERI-Wild基准上达到了新的技术水平。此外,我们提出了一个新的和有效的措施,名为跨镜头泛化措施(CGM),以评估跨镜头泛化能力,构建了9个最先进的方法和我们的方法为基准。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Tecypus

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值