Simulating Content Consistent Vehicle Datasets with Attribute Descent（略读）-CSDN博客

本文链接：https://blog.csdn.net/s123l4/article/details/109564467

提出了一个大型的3D合成数据集VehicleX。其中各个3D模型都有现实世界的车型对应。整个数据集有1362个id，其中包括11种主流车型。
论文：https://arxiv.org/pdf/1912.08855.pdf

摘要

本文使用图形引擎来模拟带有免费注释的大量训练数据。在合成数据和真实数据之间，存在两个级别的域差距，即内容级别和外观级别。后者已经得到了广泛的研究，我们主要致力于缩小光照、视点等属性的内容差距。为了降低问题的复杂性，我们选择了一种更小、更可控的应用，即车辆再识别(re-ID)。介绍了一种大规模合成数据集车辆算法。它是在Unity中创建的，包含1362个具有可编辑属性的各种3D模型车辆。我们提出了一种属性下降方法，以使VehicleX逼近实际数据集中的属性。具体来说，我们对VehicleX中的每个属性进行操作，旨在最小化VehicleX与真实数据在Frechet Inception Distance (FID)方面的差异。该属性下降算法允许内容域适应与现有外观域适应方法正交。我们将优化的车辆数据与真实的车辆re-ID数据集混合，并观察持续的改进。通过扩充的数据集，我们报告了竞争准确性。我们的数据集，引擎和我们的代码可在https://github.com/yorkeyao/VehicleX
查看。
关键词:车辆检索、领域自适应、合成数据
在这里插入图片描述
图1所示。系统工作流程。(左:)给定一列属性和它们的值，我们使用渲染器(例如，Unity)进行车辆模拟。我们计算合成和实际车辆之间的 Fréchet 起始距离（FID），以表明它们的分布差异。通过使用所提出的属性下降算法更新属性值，我们可以在训练迭代过程中最小化FID。(右:)我们使用最小化FID的学习属性值来生成用于reid模型训练的合成数据。

在这里插入图片描述
图2所示。VehicleX引擎。(A)渲染平台的说明。我们调整车辆的方向，光线方向和强度，相机高度，以及相机和车辆之间的距离。(B)显示16种不同的车辆身份。

表1。比较一些真实世界和合成车辆re-ID数据集。“Attr”表示数据集是否有属性标签(例如，方向)。我们的身份是不同的3D模型，因此可以潜在地渲染无限数量的图像在不同的环境和相机设置。VehicleX是开源的，可以用来生成(拥有)无限数量的图像(相机)。
在这里插入图片描述

图3所示。(左:)属性编辑。我们旋转车辆，编辑光的方向和强度，或者改变相机的高度和距离。括号中的数字对应于Unity中的属性值。(右:)当在re-ID模型中使用属性调整过的车辆时，我们会进一步添加随机背景和干扰项。

在这里插入图片描述
图4. VehicleID [18]上的属性下降可视化。（A）通过训练迭代的FID-mAP曲线。在属性下降期间，FID依次下降（越低越好），而域自适应mAP依次增大（越好越好）。为了说明简单，我们使用“light”来表示光的方向和强度，并使用“cam”。表示相机的高度和距离。(B)我们在每次迭代中显示合成车辆。我们通过设置方向为右、光线强度为暗、光线方向为西、相机高度为与车辆相等、相机距离为中值来初始化属性。通过优化过程，这些图像的内容越来越类似于（C）目标真实图像。
在这里插入图片描述
图5所示。图像w/和w/o风格域适应。(A)无风格域适应的合成图像。（B）（C）（D）我们使用SPGAN [7]将（A）中的图像分别转换为VeRi，VehicleID和CityFlow的样式。

表2.仅使用合成数据进行训练时，w / o和w/样式的DA的Re-ID准确性（mAP）。我们清楚地看到DA风格带来了显著的改进，因此是必要的。
在这里插入图片描述

表3.数据扩充中VehicleID的方法比较。我们的方法基于具有交叉熵（CE）损失的IDE [41]。属性下降在基线属性和随机属性上均持续改善，并且与最新技术相比具有竞争力。“R”指训练仅使用真实数据。“R+S”表示训练中既使用了合成数据，也使用了真实数据。“小”，“中”和“大”是指VehicleID测试集中的车辆数量[18]。
在这里插入图片描述

表4.在第I和第II阶段之后，在生成的数据和VehicleID之间的FID值（属性下降是针对两个时期执行的）。测试了属性的不同顺序。“C”、“O”和“L”分别指相机、方位和照明。在epochII之后，FID值通常相似，这表明属性之间的相关性较弱，因此它们大多是独立的。
在这里插入图片描述

5.2实现细节

数据生成。对于VehicleID数据集，我们只针对VehicleID训练集优化单个属性列表。但大多数reid数据集，如VeRi776和CityFlow，都是根据多个摄像头视图自然划分的。由于特定的摄像头视图通常具有稳定的属性特征(如视点)，因此我们对每个摄像头执行本文提出的属性下降算法，以模拟与每个摄像头的图像内容相似的图像。例如，我们使用VeRi-776训练集优化了20个属性列表，这个训练集有20个摄像机。属性下降执行两个epoch。一个epoch定义为列表中的所有属性更新一次。
图片风格转变。我们将SPGAN[7]应用于图像风格变换，这是一种最先进的风格级域自适应re-ID算法。示例结果如图5所示，影响如表2所示。以112,042幅随机属性图像为源域，以三个车辆数据集中的训练集为目标域，分别进行图像平移模型的训练。当对学习到的属性数据执行SPGAN时，我们基于学习到的属性是随机范围的子集这一事实，直接推断出学习到的属性图像。
基线配置。对于VeRi和VehicleID，我们使用id鉴别嵌入(IDE)[41]。我们采用了[22]的策略，增加了批处理归一化，在最后的feature层去除ReLU。我们也在VeRi上使用基于部分的卷积基线(PCB)[31]来提高精度。在PCB中，我们将图片水平分为六个相等的部分，并对每个部分进行分类。对于CityFlow训练，我们使用交叉熵损失和三重态损失的组合，使用[22]中的设置。
实验协议。我们在vehicleX训练和联合训练设置上评估我们的方法。在VehicleX训练下，我们在VehicleX上训练模型并在真实数据上进行测试。在联合训练下，我们将VehicleX数据与真实世界数据结合起来，进行两阶段训练；测试是在相同的实际数据上进行的。
两阶段训练联合训练使用三个真实世界的数据集进行两阶段训练[42]。我们在第一阶段混合合成数据集和真实数据集，而在第二阶段只在真实数据集上使用finetune。以CityFlow为例，在第一阶段，我们对真实数据和合成数据进行训练。我们将车辆图像分为1695张(333张)+ 1362来自合成)身份。在第二阶段，我们用新的分类器替换分类层，该分类器将在真实数据集上进行训练（识别333个类）。表5显示了此方法的显着改进。

表5.进行联合训练时两阶段训练的Re-ID准确性（mAP）的比较。从第一阶段到第二阶段，我们可以看到明显的性能提升。
在这里插入图片描述

表6.使用[22]的各种训练数据集对VehicleID测试集(large)进行重识别测试精度(mAP)。前4个训练集分别由随机属性、随机搜索、LTS和属性下降生成。最后两个训练集是真实世界的训练集。FID测量训练集和VehicleID之间的域间距。
在这里插入图片描述

表7.在VeRi-776上进行测试时的方法比较。 VehicleX训练和联合训练结果都包括在内。“R”表示只使用真实数据进行训练，“S”表示只使用合成数据进行训练，“R+S”表示联合训练。VID→VeRi显示在VehicleID上训练的结果，在VeRi测试，Cityflow→VeRi表示在Cityflow上训练的结果，在VeRi上进行测试。除了一些最先进的方法，我们总结了在两个基线之上的结果，即IDE[41]和PCB[31]。
在这里插入图片描述

在这里插入图片描述
图6所示。学习属性和随机属性在联合训练中的性能比较。我们在三个数据集上展示了mAP，并使用统计显着性分析来显示训练稳定性。∗在统计学上表示显著(即0.01 < pvalue < 0.05)，∗∗在统计学上表示非常显著(即0.001 < p-value < 0.01)。

我们注意到，使用合成数据作为训练集的改进比使用数据扩充更显著。当训练集只包含合成数据时，属性的质量越高，对reid结果的影响越直接。

表8.联合训练对CityFlow的方法比较。我们的基线是由CE损失和[22]三联体损失组成的。rank-1，rank-20和mAP由在线服务器计算。
在这里插入图片描述

6 结论

本文从内容层面研究了合成数据与真实数据之间的领域差距问题。即，我们在图形引擎中自动编辑源域图像内容，以减少合成图像和真实图像之间的内容差距。我们利用这个思想来研究车辆重识别任务，其中车辆边界框的使用减少了需要优化的属性集。较少的关注属性和它们之间的低依赖关系使我们可以使用我们提出的属性下降方法来逐一优化它们。我们表明，学习到的属性带来了具有统计学意义的re-ID准确性的提高。此外，我们的实验揭示了在使用合成数据方面的一些重要见解，例如，风格DA带来了显著的改善，两阶段训练有利于联合训练。