Multi-Domain Learning and Identity Mining for Vehicle Re-Identification(翻译)

车辆再识别的多领域学习与身份挖掘

https://arxiv.org/pdf/2004.10547.pdf

摘要

本文介绍了针对AI City Challenge 2020(AICITY20)中Track2的解决方案。Track2是具有实际数据和合成数据的车辆重新识别(ReID)任务。
我们的解决方案是基于一个强大的基线,其中包含了由行人ReID亲自提出的一整套技巧(BoT-BS)。首先,我们提出了一种多领域学习方法,以结合真实世界和合成数据来训练模型。 然后,我们提出了一种identity挖掘方法,可以为部分测试数据自动生成伪标签,这比k均值聚类更好。 具有加权特征的小轨迹级别的重新排名策略也用于对结果进行后处理。 最后,在多模型组合中,我们的方法的mAP得分达到0.7322,在比赛中排名第三。 可以在https://github.com/heshuting555/AICITY2020_DMT_VehicleReID上找到这些代码。

1. 介绍

AI城市挑战是CVPR2020会议的一个研讨会。它侧重于不同的计算机视觉任务,以使城市交通系统更加智能。本文介绍了我们针对Track2的解决方案,即城市规模的多摄像头车辆再识别(ReID)。车辆再识别是计算机视觉中的一个重要课题。它的目的是通过不同的摄像头在图像或视频中识别目标车辆,特别是在不知道车牌信息的情况下。在智慧城市的智能交通系统(ITS)中,车辆再识别具有重要的应用价值。例如,该技术可以跟踪目标车辆的轨迹并检测交通异常。最近,大多数工作都基于车辆再识别中的深度学习方法,并且这些方法在诸如Veri-776 [12]和VehicleID [11]等基准测试集中取得了出色的性能。
Track2不能完全视为标准车辆ReID任务,在车辆ReID任务中,模型是在相同域的数据上进行训练和评估的。如图1所示,提供了真实数据集和合成数据集在Track2中训练模型。 这两个不同的数据集之间存在很大的偏差,因此如何合理地使用合成数据集仍然存在一些挑战。 另外,Track2中的一些特殊规则介绍如下:

  • 不能使用外部数据。禁止使用包括Market1501[29]、DukeMTMC-reID[18]、VeRi、VehicleID等公众行人和车辆数据集。由其他机构收集的私人数据集也不被允许。
  • 只能在训练集上做额外的手工注释。自动注释也可以应用于测试集。
  • 团队可以使用其他人已经发布的外部数据集(如ImageNet [1]和MS COCO [10])上训练的开源预训练模型。
  • 对合成数据的使用没有任何限制。
  • 前100名的平均平均精度(mAP)决定了排行榜。
    在这里插入图片描述
    图1 一些真实世界和合成数据的例子

由于任务类似于行人再识别,因此本文使用行人再识别 [13,14]中的技巧包(BoT-BS)作为基准。 BoT-BS引入了BNNeck,以减少训练阶段ID损失(交叉熵损失)和三重态损失之间的不一致之处。BoT-BS不仅是行人再识别的强大基线,也适合车辆再识别,在Veri-776基准上(以ResNet50骨干)可以达到95.8% rank-1和79.9% mAP 精度。 在本文中,我们修改了一些训练设置,例如学习率,优化器和损失函数等,以提高新数据集的ReID性能。除了修改BoT-BS之外,我们还关注如何使用合成数据来提高ReID在真实数据上的性能。由于真实数据与合成数据之间存在较大的偏差,它比车辆重识别中的跨域或领域自适应任务更具挑战性。我们观察到,直接将现实世界数据和合成数据进行合并以训练模型,并在合成数据上进行预训练模型都无法提高ReID性能。 基于在现实世界和合成领域共享颜色和纹理等低级特征的动机,我们提出了一种多领域学习(MDL)方法,即在现实世界和部分合成数据上对模型进行预训练,然后在冻结前几层的情况下在现实世界数据上进行微调。
此外,测试集允许在没有手工注释的情况下使用。一些无监督的方法,如k-means聚类,可以用来生成测试数据的伪标签。但是,由于ReID模型的性能不佳,pseudo标签不够准确。因此,我们提出了Identity Mining(IM)方法来生成更准确的伪标签。IM选择一些具有高置信度的不同ID的样本作为聚类中心,每个ID只能选择一个样本。然后,对于每个聚类中心,一些相似的样本将使用相同的ID进行标记。与k-means聚类不同的是,k-means聚类将所有数据划分为几个聚类,我们的IM方法只是自动标记了部分数据的高置信度。
为了进一步提高ReID的性能,引入了一些有效的方法。 例如,重新排序(RR)策略[30]是一种广泛使用的方法来对结果进行后处理。 原始RR是图像到图像ReID方法,但是Track2中提供了跟踪信息。因此,我们引入了一种带有加权特征(WF-TRR)[4]的tracklet级别重新排序策略。 尽管我们的单个模型可以在CityFlow [16]上达到68.5%的mAP精度,但在多模型集成的情况下,我们将mAP的精度进一步提高到73.2%。
我们的贡献可以总结如下:

  • 提出了一种多领域学习策略,以联合利用真实数据和合成数据。(训练集上)
  • 提出了Identity Mining方法,对部分测试数据自动生成伪标签。(测试集上)
  • 我们的mAP得分达到0.7322,在比赛中排名第三。

2. 相关的工作

在本节中,我们将介绍deep ReID和AICITY2019的一些研究成果。

2.1.deep ReID

再识别(ReID)是计算机视觉领域的一个研究热点。这个任务具有各种重要的应用。现有的ReID方法大多基于深度学习。近年来,基于CNN的特性在行人再识别和车辆再识别上都取得了很大进展。行人再识别为车辆再识别提供了很多见解。 我们的方法基于行人再识别的强大基线[13,14]。 对于车辆再识别,Liu等人[11]介绍了使用深度相对距离学习(DRDL)将车辆图像投影到欧几里得空间的管道,该距离可以直接测量两个车辆图像的相似性。Shen等[20]提出了一个两阶段框架,该框架包含了车辆的复杂时空信息,以有效地规范ReID结果。Zhou等[31]设计了一个视图感知的专注多视图推理(VAMI)模型,只需要视觉信息就可以解决多视图车辆再识别问题。而He等人[3]提出了一种简单有效的部分正则化区分特征保持方法,提高了对细微差异的感知能力,并报告了有前景的改进。一些作品还研究了区分性的部分级特征以提高性能。车辆再识别的部分作品[25,9,8]利用车辆关键点来学习局部区域特征。在车辆再识别的最近的一些工作中[3,24,2,23]指出,特定的零部件如挡风玻璃、车灯、汽车品牌等往往具有较多的辨别性信息。在[32]中,利用不同方向部件特征进行空间归一化和拼接,作为车辆Re-ID的方向深度学习特征。Qian等人[17]提出了基于种类和属性感知网络(SAN),以融合全局特征、局部特征和属性特征信息。

2.2 AICITY19

由于AICITY20是从AI CITY Challenge 2019(AICITY19)更新而来的,因此AICITY19的某些方法对我们的解决方案很有帮助。 主办方在[15]中概述了领导团队的方法。由于一些外部数据可以用于AICITY19,去年出现了很多不同的想法。Tan等人[21]采用了一种基于卷积神经网络(CNNs)提取视觉特征的方法,并利用了行驶方向和车辆类型分类中的语义特征。黄等。 [7]利用车辆的语义属性来联合训练带有ID标签的模型。 此外,一些领导团队还使用了预训练的模型来提取车辆姿态,从而可以推断出方向信息[7,9]。 许多团队使用重排序方法作为后处理方法来提高ReID的性能[7、9、6、19]。 一些领导团队将外部数据和其他注释添加到了培训模型中,但是AICITY20中不允许这样做。

3.方法

3.1.基准模型

基线模型对于最终的排名很重要。在track2中,我们使用针对行人再识别提出的强基线(BoT-BS)[13,14]作为基线模型。为了提高对Track2数据集的性能,我们修改了BoT-BS的一些设置。输出特征后面是BNNeck [13,14]结构,该结构将ID损失(交叉熵损失)和三元组损失[5]分为两个不同的嵌入空间。 三元组损失是软间隔版本,如下所示:
在这里插入图片描述难样本挖掘用于软间隔的三元组损失,我们删除中心丢失(center loss),因为它在增加计算资源的同时并没有极大地提高检索性能。我们尝试将交叉熵损失修改为弧面损失,(cross-entropy loss——>arcface loss)但弧面损失在CityFlow上的性能较差。 在推论阶段,我们观察到特征ft获得的性能比fi好一点。 由于性能更好,我们使用SGD优化器代替Adam优化器。 为了提高性能,我们用更深的主干和更大尺寸的图像来训练BoS-BS。 基线模型的框架如图2所示,更多细节可以参考[13,14]。 作为参考,我们修改的基准在Veri-776基准上达到96.9%的等级1和82.0%的mAP精度
在这里插入图片描述
图2 我们的基线模型框架BoT-BS

3.2 多领域学习

在本节中,我们将介绍一种新的多领域学习(MDL)方法来利用合成数据。
挑战中同时提供了实际数据和综合数据,因此如何从两个不同的领域学习区分特征是一个重要的问题。为了方便起见,将真实世界和合成数据/域分别表示为DR和DS。 目标是在DR∪ DS上训练模型,并使其在DR上获得更好的性能。 有两种简单的解决方案,如下所示:

  • 解决方案1:直接结合真实世界和合成数据来训练ReID模型;
  • 解决方案2:先在合成数据DS上训练一个预训练的模型,然后在真实数据DR上对预训练的模型进行微调。

然而,这两种解决方案在挑战中不起作用。由于DS中的数据量远远大于DR中的数据量,Solution-1会导致模型更偏向于DS。因为DR和DS两者之间存在很大的偏差,对于CityFlow dataset,在DS上的预训练模型可能并不比ImageNet上的预训练模型好。因此,解决方案2也不是解决这个问题的好方法。然而,一些研究[21,7]在2019 AI CITY Challenge中使用了Veri-776、VehicleID或CompCar[27]数据集上的预训练模型获得了更好的性能,表明在合理的数据上训练的预训练模型是有效的。基于上述讨论,我们提出了一种新颖的MDL方法来利用合成数据VehicleX。MDL方法包括两个阶段,即预训练阶段和微调阶段。
预训练阶段。 现实世界数据DR的所有训练数据表示为图像集R。然后,我们从合成数据DS中随机抽取一部分ID,以构建新的图像集S。在新的训练集R∪S上对模型进行了预训练。 为了确保预训练模型不偏向DS,S的ID数目不大于R的数目。具体而言,当S的身份数目设置为100时,可以获得很好的性能。我们只需选择 DS的前100个ID。
微调阶段。为了进一步提高在DR的性能,我们在不使用S的情况下对预训练模型进行微调。尽管DR和DS之间存在很大的域偏差,但是在这两个域中共享了诸如颜色和纹理之类的低级特征。 因此,冻结了预训练模型的前两层,以在微调阶段保留低级特征。 降低学习率也是必要的。

3.3. Identity Mining

测试集允许用于无监督学习。一种常用的方法是利用聚类方法对数据进行伪标签标注。由于测试集包含333个ID/类别,我们可以直接使用k-means聚类将测试数据聚类为333个类别。但是这种方法在Track2中并不适用,因为不好的模型无法给出准确的伪标签。当添加这些自动注释的数据来训练模型时,我们观察到性能变得更差。我们认为没有必要添加所有测试数据来训练模型,但是有必要确保伪标签的正确性。 因此,我们提出了一种Identity Mining(IM)方法来解决此问题。
查询集表示为:在这里插入图片描述
图库集表示为:
在这里插入图片描述
我们利用MDL训练的模型提取Q和G的全局特征,记为 f Q = { f q 1 , f q 2 , f q 3 , . . . , f q m } f_{Q}= \left \{ f_{q_{1}}, f_{q_{2}},f_{q_{3}},...,f_{q_{m}}\right \} fQ={fq1,fq2,fq3,...,fqm} f G = { f g 1 , f g 2 , f g 3 , . . . , f g n } f_{G}= \left \{ f_{g_{1}}, f_{g_{2}},f_{g_{3}},...,f_{g_{n}}\right \} fG={fg1,fg2,fg3,...,fgn}如图3所示,第一步是在查询集Q中寻找不同ID的样本以形成集合 L = { l 1 , l 2 , l 3 , . . . , l t } L= \left \{ l_{1}, l_{2},l_{3},...,l_{t}\right \} L={l1,l2,l3,...,lt}我们随机抽取一个probe图像 l 1 l_{1} l1初始集合L:
在这里插入图片描述
然后我们计算距离矩阵Dist(Q,L)并将负样本对的距离阈值定义为dn。目标是找到要添加到集合L中的新ID的样本。为了实现此目标,当子矩阵 min(Dist(qi, L))> dn时,qi被视为候选。 但是可能有多个满足此约束的候选项。 我们选择与L集中所有样本的最不相似的候选样本如下:
在这里插入图片描述
lt将以一个新的ID被添加到集合L中。我们将重复该过程,直到没有qi满足约束min(Dist(qi; L))> dn为止。第一步之后,集合L包含多个具有不同ID的样本。 第二步是挖掘属于相同ID的样本。 同样,我们将正样本对的距离阈值定义为dp。 对于锚图像lt,如果样本x,x属于Q∪G满足Dist(x; lt)<dp,样品x的ID将与lt的ID相同。 但是,在此约束下,可以用多个ID标记x。 一个简单的解决方案是将x和最相似的lt标记为相同的ID。 然后,将这些样本添加到带有伪标签的集合L中。 注意,因为我们设置dp<dn,所以只有一部分样本被标记。
在这里插入图片描述
图3.(IM)方法的第一阶段。 每个步骤都可以使用新ID标记一个sample。 黄色圆圈的半径是负对的距离阈值dn。 黄色圆圈之外的样本是满足距离约束的候选。 最后,所有样本至少被一个黄色圆圈覆盖。

与k-means聚类相比,我们的IM方法不需要知道类的数量,可以在第一阶段自动生成聚类中心。然而,该方法是一种对L的初始样本敏感的局部优化方法。今后我们将把它作为一个全局优化问题进行进一步研究。我们认为它有可能获得比其他聚类方法更好的伪标签。

3.4.带有加权特征的Tracklet级重新排序

。。。。(针对track2提的,略)
除了加权特征外,k-倒数再排序(RR)方法是提高ReID性能的另一种后处理方法。

4. 实验结果

4.1 数据集

与学术研究定义的标准车辆ReID任务不同,Track2可以在真实数据和合成数据上训练模型,如图1所示。此外,还可以在测试集上进行无监督学习。
现实世界的数据。本文将真实的数据称为CityFlow dataset[16,22],由40个摄像头在真实的交通监控环境中采集。共包含666辆车的56277张图片。训练使用了333辆车辆的36935张图像。剩下的333辆车辆的18290幅图像进行测试。在测试集中,有1052张查询图像和17238张图库图像。平均而言,每辆车从4.55个摄像头视图中有84.50个图像特征。在训练和测试集上都提供了单摄像机轨迹。测试集上的性能决定了排行榜上的最终排名。
合成数据。本文将合成数据称为VehicleX数据集,该数据由一个公开的3D引擎VehicleX[28]生成。 该数据集仅提供训练集,该训练集总共包含1362辆车的192150张图像。 此外,还标注属性标签,例如汽车颜色和汽车类型。 在Track2中,合成数据可用于模型训练或迁移学习。 但是,现实数据与合成数据之间存在很大的领域偏差。
验证数据。因为每个团队只有20个提交,所以有必要使用验证集来离线评估方法。我们将CityFlow的训练集拆分为训练集和验证集,为了方便起见,我们将它们分别命名为split -train和split -test。Split-train和Split-test分别包含233辆车的26272幅图像和100辆车的10663幅图像。在Split-test,每辆车采用3张图像作为probe,其余图像作为图库。

4.2 实现细节

所有图像均调整为320 * 320。 如图2所示,我们采用ResNet101_IBN_a [26]作为骨干网。 至于数据扩充,我们使用随机翻转,随机填充和随机擦除。 在训练阶段,我们对8个ID和每个ID的12张图像的小批次使用soft margin 三重损失,使收敛性更好。将SGD作为优化器,并将初始学习率设置为 1 e − 2 1e^{-2} 1e2。 此外,我们采用了Warmup学习策略,并花了10个epoches线性地将学习率从 1 e − 3 1e^{-3} 1e3提高到 1 e − 2 1e^{-2} 1e2。 在第40和第70个epoch,学习率分别下降到 1 e − 3 1e^{-3} 1e3 1 e − 4 1e^{-4} 1e4。 我们总共训练了100个epoches。
对于MDL的预训练阶段,添加了VehicleX中前100个ID的14536张图像以对模型进行预训练。 这些采样图像固定在每个时期。 对于MDL的fune调整阶段,该模型用40个epoches进行了微调,其中骨干网中的层的初始学习率设置为 1 e − 3 1e^{-3} 1e3,而全连接层的初始学习率设置为KaTeX parse error: Expected '}', got 'EOF' at end of input: 2e^{-3。对于IM方法,距离阈值dn设置为0.49,dp设置为0.23。 通过L2归一化对用于计算距离的特征进行归一化。 总共从333个类别中选择了130个ID的7084个图像作为集合L。

4.3 比较不同的重新排序策略

表1.不同重排策略的比较。 RR和TRR表示k倒数重新排列和轨道级重新排列。 AF和WF表示每个小轨迹的平均特征和加权特征。 BoT-BS未在CityFlow上评估。
在这里插入图片描述

4.4 多域学习分析

表2 MDL在Split-test数据集中的结果。
在这里插入图片描述
表3 MDL对CityFlow的结果。
在这里插入图片描述

4.5 Identity Mining分析

在这里插入图片描述

4.6 在CityFlow上的消融分析

在这里插入图片描述
Ens指的是多种模式的集合。

4.7.比赛的结果

在这里插入图片描述
在这里插入图片描述

5. 结论

重要参考文献
[13] Hao Luo, Youzhi Gu, Xingyu Liao, Shenqi Lai, and Wei
Jiang. Bag of tricks and a strong baseline for deep person
re-identification. In Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition Workshops, pages
0–0, 2019.
[14] Hao Luo, Wei Jiang, Youzhi Gu, Fuxu Liu, Xingyu Liao,
Shenqi Lai, and Jianyang Gu. A strong baseline and batch
normalization neck for deep person re-identification. IEEE
Transactions on Multimedia, 2019.

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值