StRDAN: Synthetic-to-Real Domain Adaptation Network for Vehicle Re-identification（翻译）

最新推荐文章于 2024-08-31 09:37:36 发布

s123l4

最新推荐文章于 2024-08-31 09:37:36 发布

阅读量485

点赞数

分类专栏：车辆重识别文章标签：计算机视觉神经网络

本文链接：https://blog.csdn.net/s123l4/article/details/109706437

版权

车辆重识别专栏收录该内容

18 篇文章

订阅专栏

摘要

车辆再识别的目的是从车辆图像中获取相同的车辆。这具有挑战性，但对于分析和预测城市的交通流量至关重要。尽管深度学习方法已在这项任务上取得了巨大进展，但其大数据需求却是一个关键的缺点。因此，我们提出了一个合成到真实领域自适应网络(syntheticto -real domain adaptive network, StRDAN)框架，它可以通过廉价的大规模合成和真实数据训练来提高性能。StRDAN训练方法结合了领域自适应和半监督学习方法及其相关损失。对于VeRi和CityFlowReID数据集，StRDAN提供了比基线模型(只能使用真实数据训练)显著的改进，分别提高了3.1%和12.9%的平均精度。

1 简介

车辆再识别(Re-ID，简称Re-ID)的目的是识别被不同摄像头捕获的同一车辆。它是分析和预测智慧城市交通流的必要技术，一般采用基于视觉外观的Re-ID方法。然而，车辆再识别具有挑战性有两个原因。

不同的照明和复杂的环境给基于外观的车辆识别带来了困难，使用不同的摄像头可以产生很大的明显变化。（类内）
不同的车辆在视觉上可能非常相似，当他们在同一类型的类别（类间）
深度学习方法[23,10,17]通常用于解决这一复杂的车辆再识别任务，并取得了显著进展。这些模型利用深度学习网络提取特征，并通过比较特征距离来区分车辆。然而，他们需要大量的数据集来训练和提高性能，这很快成为一个缺点。[30]的许多研究证实，训练数据越多，模型性能越好。因此，来自真实环境的数据需要大量的注释工作量。另一方面，领域自适应方法采用廉价的合成数据来代替实际数据。
本文探讨了如何使用廉价的合成数据来提高模型性能(见图1)。我们采用了一种对抗域自适应方法[4]，其中人工神经网络(ANN)使用真实数据学习进行分类的最佳鉴别特征，同时学习真实数据和合成数据之间的不可区分特征[1][5]。为了实现这一概念，我们引入了一个域区分层和相关的交叉熵损失，以训练整个网络对两个域都没有区别。我们还采用了半监督学习方法，以更好地利用特定的合成数据标签，例如颜色，类型和方向。由于这些标签只存在于合成数据，一个半监督学习方法，可以处理无标签的数据是适当的，以提高性能。在训练中，根据数据域选择性地应用排他标签的分类损失[30]。使用领域自适应和半监督学习方法对人工智能城市挑战的真实和合成数据进行训练的提出的模型，比仅使用真实数据训练的基准模型提高了12.9%。

图1所示。提出了一种改进车辆再识别性能的合成-实域自适应方法，为真实数据获取有意义的标签可能很困难，但对于合成数据则相对简单。
本文提出了一种新的合成-实域适应网络StRDAN框架，主要贡献如下:
StRDAN可以成功地使用廉价的大规模合成数据以及真实数据进行训练，以提高性能。
我们提出了一种新的StRDAN训练方法，结合领域适应和半监督学习方法以及相应的损失。
StRDAN对两个重要数据集VeRi[15]和CityFlow-ReID[25]的基线模型进行了显著改进。

3.提出的一种合成-实域自适应网络

3.1 数据集

CityFlow-reID dataset：56,277 images for 666 unique vehicles
VehicleX：192,150 images from 1,362 distinct vehicles
veri

3.2 总体架构

图2显示了提出的总体StRDAN架构。该模型包括用于特征提取的主干网和用于分类的多个全连通(FC) softmax层。从真实数据集和合成数据集对输入图像进行等数量的批量采样。对于一小批车辆，分别从真实数据集和合成数据集中选择n个不同的车辆身份，然后从这些选择的图像中随机选择m个样本。因此，每批包含2×n×m图像。
主干网从输入图像中提取高度抽象的特征向量(dim = 2048)。原则上，任何用于图像分类的卷积神经网络(CNN)都可以作为骨干网络，在以往的研究中，已经使用了多种cnn，包括VGG-CNN-M1024[3]、MobileNet[9]、ResNet[7]等，作为车辆Re-ID模型的骨架。我们选择resnet -50作为StRDAN的骨干网络。由骨干网提取的特征图被展平并馈送到各个FC softmax层中，以对车辆ID，真实或合成，颜色，类型和方向进行分类。然后将输出馈送给五个交叉熵损失函数和一个三元组损失函数。通过更新网络参数以减少总Loss，结合交叉熵和三重损耗，对StRDAN进行端到端训练。
在这里插入图片描述
图2。提出的合成到真实域自适应网络架构，包括一个ResNet-50主干用于特征提取，五个完全连接的softmax层用于分类，使用合成数据和真实数据之间的联合和不联合损失进行训练。后处理采用重排序算法[32]，对Jaccard特征与原始输出距离之间的距离矩阵进行排序。

5 实验

选择的骨干网络ResNet-50，用ImageNet[21]上预先训练的权值进行初始化，以加速训练。我们使用AMSGrad优化器[20]端到端地训练了60个时期的模型。初始学习率= 0.0003，在20和40个epoch后降低了0.1。 L2调节的重量衰减因子设置为0.0005，批量大小为64。对于每个小批次，从每个真实数据集和合成数据集中选择两个不同的车辆ID，并采样具有相同ID的四幅图像。因此，我们从真实数据集和合成数据集中选取了16幅不同的图像，其中有4个不同的IDs。输入图像被调整为128 x 256像素，我们使用水平翻转和随机擦除增强。后处理采用重排序算法[32]，对Jaccard特征与原始输出距离之间的距离矩阵进行排序。
表2.用VeRi和VehicleX数据集训练的StRDAN的评估结果。
在这里插入图片描述
O，C，T，V，D =分别为方向，颜色，类型，车辆ID和域
R, S分别为真实数据和合成数据
没有Conv =没有收敛
mAP =平均精度
如果包括目标损失，则选中复选框。
最佳结果以粗体显示。
表3。在VeRi数据集上比较深度学习方法。
在这里插入图片描述

6 总结

本文提出使用领域自适应和半监督学习来充分利用合成数据。实验结果证实了通过域自适应增加训练数据可以提高性能。我们还表明，使用只有合成数据可用的标签的半监督学习可以帮助模型提取更多的语义特征。
今后的工作将研究以下问题。

如前所述，独立损耗和真实数据依赖于独立损耗之间的协同。
对合成数据的现实影响。VehicleX合成的图像数据与真实图像数据相差甚远，容易与真实图像数据区分开来。更复杂的仿真软件提供更真实的合成数据可以进一步提高性能。
方向预测。我们将方向回归转换为六个bin分类，但尚未优化bin数量。由于定向是识别以各种摄像机角度捕获的车辆的关键特征，正确的方向表示也将有助于提高性能。