A survey of advances in vision-based vehicle re-identification(翻译)

摘要:车辆再识别(V-reID)由于其应用和研究意义,在社会上得到了广泛的应用。特别是,V-reID是一个仍然面临许多公开挑战的重要问题。本文综述了不同的V-reID方法,包括基于传感器的方法、混合方法和基于视觉的方法,这些方法进一步分为基于手工特征的方法和基于深度特征的方法。基于视觉的方法使V-reID问题特别有趣,本文首次系统地介绍和评价了这些方法。我们在四个综合基准数据集上进行了实验,并比较了最新的基于特征的手工方法和基于深度特征的方法的性能。从平均平均精度(mAP)和累积匹配曲线(CMC)两个方面对这些方法进行了详细的分析。这些分析为这些方法的优缺点提供了客观的见解。我们还提供了不同的V-reID数据集的细节,并批判性地讨论了V-reID方法的挑战和未来趋势。

1 简介

在现代公共交通系统中,视频监控对交通控制和安全起到了重要的作用。因此,获取准确的交通信息的需求越来越大。在交通区域,已经安装了许多监控摄像头。它将是有利的使用这些相机分析交通场景,而不需要替换他们与一些特殊的硬件。这些相机的数据已大量用于处理车辆检测问题。然而,V-reID的问题在过去几年里才逐步升级。
重新识别一个特定的物体,就是将它识别为与之前观察到的同一物体。当面对一辆感兴趣的车,V-reID会告诉你这辆车是否被另一台摄像机在另一个地方观察到了。V-reID的问题是在不重叠视图的不同摄像机下识别目标车辆,如图1所示。V-reID的出现可以归因于1)公共安全需求的增加和2)在道路网络、大学校园和街道上广泛使用的大型摄像网络。这些原因使得仅仅依靠粗壮的人力来准确有效地定位目标车辆或通过多个摄像头跟踪车辆的成本很高。
在这里插入图片描述
图1:多视图车辆。地图上显示了同一辆车的不同视图。这些视点的车辆描绘了不重叠的视点的摄像头安装在不同的位置

V-reID研究从基于传感器的方法开始。从那时起,几个重要的V-reID方法被开发出来。
这一发展包括混合方法和基于计算机视觉的方法。我们在图2中简要描述了V-reID的历史。最近,V-reID方法的发展受到了广泛的关注。在不同地点出版的出版物越来越多就证明了这一点。图3给出了基于传感器的方法(第一行)和基于视觉的方法(第二行)两类论文发表的百分比。
在这里插入图片描述
图2:V-reID方法:基于传感器方法、混合方法、基于手工特征方法和基于深度特征方法的车辆再识别历史。混合方法将图像/视频处理技术与来自不同传感器的数据相结合。

在这次调查中,我们回顾了V-reID现有的研究,希望能够揭示过去有什么可用的,现在有什么可用的,以及为了开发更好的交通环境感知方法需要做些什么。据我们所知,目前还没有对V-reID进行全面的调查。本文通过对存在的V-reID方法与未来趋势进行全面的总结和分析,填补了这一空白。值得注意的是,本文的主要焦点是基于视觉的方法。然而,为了完整,我们简要地分类和讨论基于传感器的方法。我们关注的是目前可用的或未来可能会出现的不同的V-reID方法。我们特别强调了深度学习方法,这是当前的热门话题或反映未来趋势。
本文的其余部分组织如下。在第二部分,我们提出基于传感器和基于视觉的方法。数据集的细节在第3节中给出。第4节给出了在三种基准数据集上考虑20种不同方法的实验和评价。第五节讨论了V-reID的挑战和未来趋势,第六节给出结论。

2. 车辆重识别方法

在本节中,我们将讨论基于传感器和基于视觉的方法。我们将基于传感器的方法分为五类:磁传感器、感应回路探测器、gps - rfid -蜂窝电话、多传感器和混合方法。基于视觉的方法分为基于手工特征的方法和基于深度特征的方法。这些类别如图4所示。
在这里插入图片描述
图4

2.1. 基于传感器的方法

基于传感器的方法使用车辆签名。有几种硬件检测器可提取车辆信号,包括感应回路,红外,超声波,微波,磁性和压电传感器。这些方法通过将在一个位置(上游站)检测到的车辆特征与在另一位置(下游站)检测到的车辆特征进行匹配来估计单个车辆的行驶时间。这些位置之间相隔几百米。在每个位置,两个传感器安装在如图5所示的速度陷波器配置中。速度捕获器配置使用行驶车道的超前和滞后传感器捕获的一对签名来计算每个检测到的车辆的速度。 接下来,我们分别讨论不同的基于传感器的方法。
在这里插入图片描述
图5:传感器配置。上下游检测站分别安装超前传感器和滞后传感器

通过匹配从感应式/磁性传感器捕获的车辆特征来重新识别车辆是最突出,最有效和最具成本效益的方法。与其他方法相比,这些方法具有多个优点。首先,这些方法保护了出行人群的隐私,因为车辆信号无法追踪到个体车辆。其次,探测器的穿透力是100%,因为车内不需要任何设备。最后,感应/磁传感器是经济有效的。尽管有这些优势,基于V-reID传感器的方法也有一些局限性。例如,这些方法不能监视多个车道。 它们还具有恒定速度限制的限制,因为它们不能提供速度独立的签名。 从不同传感器提取的车辆信号的波形很麻烦。:因此,签名匹配算法是复杂的,并依赖广泛的校准。此外,基于传感器的方法不能提供车辆的各种特征信息,包括颜色、长度和类型。表1总结了本节中涉及的基于传感器的方法的优缺点。

表1:V-reID基于传感器的方法总结。我们在表格中列出了磁传感器、感应回路检测器、GPS、RFID、手机、多传感器和混合方法的优缺点。
|基于传感器的方法 | 优点| 缺点|
|–|–|–|–|
|磁传感器 |在循环不可行的地方可以使用(比如桥面);对交通压力不太敏感;对雨雪雾天等恶劣天气不敏感|需要切割路面或在路面下挖隧道;除非考虑特殊的传感器布局或信号处理软件,否则无法检测停止的车辆。
|感应环路检测器|众所周知的技术;提供不同的交通参数,包括容量、存在、占用、速度、车头时距和间隙。弹性设计,解决各种各样的应用。|安装不良会减少路面使用寿命通常需要多个检测器来监测一个位置;安装和维护需要封闭车道。
|GPS,RFID和手机|GPS信号可在全球任何地方使用;该系统可自行校准,因此易于使用;可采用多车道操作。|易受速度变化和环境干扰的影响;在交通拥挤情况下,两辆相距很近的车可能会被识别为一辆车。
|多传感器|结合多种传感器的优点;即使交通信息不完整也可靠;检测区域小的模型不需要多个单元进行全车道检测|无法监控多车道;取决于恒定的车速
|混合方法|通常在硬件需求方面具有成本效益;由于灵活性易于添加和修改;监视多个车道|性能受到雾,雨和雪等恶劣天气的影响;性能还受到车辆阴影和车辆投影的影响。

2.2 基于视觉的方法

在计算机视觉中,V-reID的目标是在多个视角不重叠的摄像机中识别目标车辆。由于道路交通量的增加和对公共安全的高要求,在公园、大学、街道等公共区域的不同区域安装了大型摄像网络。在如此多样化的环境中使用传统的回路检测器或其他V-reID传感器既昂贵又不切实际。对安保人员来说,手动识别感兴趣的车辆并通过多个摄像头跟踪它也是一项艰苦的工作。计算机视觉可以自动完成V-reID的任务,它可以分为两个主要模块。1)车辆检测和2)多摄像头车辆跟踪。一般来说,第一个模块是独立的任务,需要耗费大量的精力在复杂多变的环境下对车辆进行检测。具有挑战性的问题是V-reID,即如何在外观、光照、姿态和视点变化剧烈的情况下,正确匹配同一车辆的多个图像。Javed等人将V-reID算法看作是一个多摄像机跟踪问题。我们将基于视觉的方法分为两类:基于手工特征的方法和基于深度特征的方法。

2.2.1 基于手工特征的方法

手工制作的特性指的是使用不同方法获得的属性,这些方法考虑了图像本身中呈现的信息。例如,可以从图像中提取的两个简单特征是边缘和角。许多研究者考虑了外貌描述符。在这些方法中,从查询的车辆图像中提取出有区别性的信息。针对V-reID从车辆顶平面中提取三维车辆模型和颜色信息。Shan等人(2005)提出了一种特征向量,它由查询车辆图像与同一摄像头视图内其他车辆图像之间的边缘映射距离组成。利用从相同和不同车辆中提取的特征向量训练分类器。Ferencz等人(2005)使用相同和不同车辆的图像块训练了一个分类器。这些图像块由不同的特征组成,包括位置、边缘对比度和斑块能量。Shan等人(2008)提出了一种用于在两个不重叠摄像机之间匹配道路车辆的无监督算法。将匹配问题表述为一个相同-不同分类问题,其目的是计算来自两个不同摄像头的车辆图像来自同一辆车或不同车辆的概率。guo等(2008)和hou等(2009)提出V-reID的3D模型。它们能更好地处理姿态和光照的巨大变化。在第一步中,对参考车辆和目标车辆的姿态和外观进行估计,在第二步中,通过对车辆进行几何不变的比较,将车辆绘制在一个归一化的三维空间中。Feris等人(2012年)提出了使用包含数百个特征量描述符的特征量库的大规模特征。他们的方法明确地建模了遮挡和多种车辆类型。Zheng et al.(2015)引入了从大型数据库中搜索汽车的多重匹配和重新排序方法。
此外,由于车辆的不同颜色和形状,基于外观的方法的性能受到限制。 由于摄像机视野,分辨率低和车辆图像照明差,可能很难获得车牌和特殊装饰等其他提示。 为了克服这些限制,提出了基于深度特征的V-reID方法。
在这里插入图片描述
2.2.2 基于深度特征的方法
近年来,卷积神经网络的成功,在不同的计算机视觉问题中启发了研究社区开发基于CNN的车辆识别方法。Liu et al. (2016b)针对V-reID考虑了大规模的边界盒。它们结合颜色、纹理和深度神经网络提取的高级语义信息。对于V-reID, Liu等人(2016c)提出了两种网络:一种是用于学习外观属性的卷积神经网络(CNN),另一种是用于验证车辆牌照号的siamese神经网络(SNN)。在外观属性的学习中,他们采用低级特征和高级特征的融合模型来寻找相似的车辆。SNN用于验证两个车牌图像是否属于同一辆车。利用大量的车牌图像训练网络进行验证。 Liu et al. (2016a)针对V-reID提出了深度相对远程学习(DRDL)方法。他们的目标是训练一个考虑三元组损失函数的深度卷积神经网络,以加快训练的收敛速度。他们的模型将车辆的原始图像投影到欧几里得空间中,L2距离可以直接用于测量两个或多个任意车辆图像之间的相似性。DRDL的关键思想是最小化同一车辆的任意视图之间的距离,最大化其他车辆的任意视图之间的距离。Zhang等人(2017)提出了卷积神经网络的三元组训练。该训练采用查询、正例、反例三联的方法来获取车辆图像之间的相对相似度,从而学习具有代表性的特征。他们从两方面改进了三元组训练:一是在原有三元组损失的基础上增加了一个更强的约束即分类导向损失;其次,建立了一种新的基于成对图像的三元组采样方法。Li等人(2017b)提出了一种深度联合鉴别学习(DJDL)模型,用于提取车辆图像的鉴别表示。为了在不同视图中挖掘样本的属性和相互关系,他们建立了一个统一的框架来有效地组合多个不同的任务,包括识别、属性识别、验证和三元组任务。通过特定的批次组成设计,联合优化DJDL模型。Tang et al.(2017)研究发现深层特征和手工特征处于不同的特征空间,如果将它们直接融合在一起,就无法充分挖掘它们的互补相关性。因此,他们提出了一种多模态度量学习架构,将深度特征和手工特征融合到端到端优化网络中,实现了V-reID更鲁棒和更有鉴别性的特征表示。Cui et al.(2017)提出了一种深度神经网络来融合颜色、模型和挡风玻璃上粘贴标记的分类输出。他们把它们映射到欧几里得空间,在那里距离可以直接用来衡量任意两辆车的相似性。Kanacıet al(2017提出了一种基于CNN的方法,该方法利用了车辆模型信息对VreID的潜力。该方法避免了昂贵和费时的交叉摄像头身份成对标签,并依赖于更便宜的车辆模型。Shen等人(2017)提出了考虑复杂时空信息的两阶段框架。该方法提取一对带有时空信息的车辆图像。每幅图像都与三种类型的信息相关联,即摄像机的视觉外观、时间戳和地理位置。利用MRF模型生成候选的时空路径,其中的每一时空状态都与真实图像及其时空信息相对应。采用 siamese-CNN+PathLSTM ,取候选路径和图像对,计算相似度得分。Wang et al.(2017)提出了一种将定位不变特征与时空信息相结合的V-reID方法。该方法由方向不变特征和时空正则化特征两个主要部分组成。该方法首先将车辆图像输入区域建议模块,计算20个关键点的响应图。然后将关键点聚集成四个方向基区建议掩模。然后通过学习模块生成一个全局特征向量和四个区域向量。这些特征通过一个聚合模块融合在一起,并给出最终的方向不变特征向量。第二个组件为查询图像和图库图像之间的时空关系建模。
Liu et al.(2018)引入了一种基于零空间的颜色和属性特征融合模型。他们采取了基于Null Foley-Sammon变换(NFST) Guo等人(2006)的特征融合度量学习方法。他们的模型从多个任意视点中学习区分性外观特征,并降低了特征空间的维数。该方法对每幅查询图像利用时间和地理位置信息,对每对图像利用时空信息。该方法适用于空间和时间上比较接近的图像对。 Zhou等人(2018)通过为每个查询图像生成多视图特征来解决多视图V-reID问题,可以将其视为包含来自多个视图的所有信息的描述性表示。该方法从属于一个视图的图像中提取特征。然后学习转换模型来推断其他视点的特性。最后,将多视点的特征融合在一起,利用远距度量学习对网络进行训练。为了从隐藏的观点推断特征,提出了两种端到端网络、空间级联卷积网络和CNN-LSTM双向循环(CLBL)。Bai等人(2018)提出了一种深度度量学习方法,即群体敏感三元组嵌入(GSTE),用于识别和检索车辆,在三元组网络学习中,通过在样本和每个单独车辆之间使用一个中间表示组,对类内方差进行了很好的建模。获取每个车辆的内部类方差属性,他们利用在线分组方法划分样本在每个车辆ID分成几组,并建立三元组样品在多个粒度不同车辆ID以及不同群体在同一车辆ID学习细粒度特性。在这里插入图片描述

3. 数据集

为了探索V-reID问题,在过去的几年中已经引入了几种方法和数据集。 V-reID问题不仅面临着巨大的类内差异和最小车间差异的挑战,而且还面临着复杂的环境因素,包括照明,视点,尺度和摄像机分辨率的变化。因此,为了开发鲁棒的V-reID方法,获取有效捕获这些因素的数据是非常重要的。一个数据集应该由足够的数据量组成,以便于V-reID模型可以学习类内的变异性。它还应该包括从一个大型摄像机网络收集的大量注释数据。为了应对这些挑战,人们在这个方向上进行了尝试,并收集了一些数据集。我们分别详细讨论。

3.1. CompCars

Yang等人(2015)收集了CompCars数据集。它是一个大规模和全面的车辆数据集,拥有1716个车型的214,345张图像。数据集被标记为五个视点,包括前、后、侧、前侧和后侧。这个数据集还包括汽车部件以及其他属性,如座椅容量、车门数量和汽车类型。图像采集自网络和城市监控摄像头。大多数图片是从网上收集的,涵盖了不同的视角,有5万张图片是从只覆盖前视图的监控摄像头捕捉到的。每个图像都标注了汽车的边框、模型和颜色。这个数据集提供了四个独特而重要的特性。1)汽车层次结构,汽车模型被组织成一个三层的层次树,即汽车制造、汽车模型和制造年份。2)汽车属性,每辆车标上5个属性,即最大速度、排水量、车门数量、座椅数量、车型3)视点,每辆车标上五个视点。4)汽车零部件,即每辆车标有八个汽车零部件,即前灯、尾灯、雾灯、进气口、控制台、方向盘、仪表盘、变速杆。该数据集最初是为汽车分类、属性预测和汽车验证而收集的。图6描述了来自CompCars数据集的样本图像。

3.2. VehicleID

Liu等人(2016a)收集了VehcileID数据集,该数据集包含从多个不重叠监控摄像机捕捉的26267辆汽车的2,21,763幅图像。数据集包含仅从两个视点(前面和后面)捕获的汽车图像,并且没有提供关于其他视点的信息。所有的汽车图像都标注了ID,表明根据汽车的牌照正确的身份。此外,10319辆车辆的90,000张图像也标注了车辆模型信息。该数据集可用于车辆模型验证、车辆检索和V-reID问题。在图7,给出了来自车载数据集的样本图像。

3.3. BoxCars

Sochor等人(2016)从137个监控摄像头中收集了BoxCars数据集。这个数据集包含两个变体:BoxCars21K BoxCars116K。第一款BoxCars21K包含了27种不同车型21250辆车的63,750张图片。第二种变体BoxCars116K包含了1,16,826张图片,包括45种不同车型的27,496辆车。数据集包含从任意视点(即前,后,侧面和车顶)捕获的车辆图像。 所有车辆图像均带有3D边界框,制造商,模型和类型注释。 通过在多个摄像机中跟踪每一辆车来标注车辆类型。 每个正确检测到的车辆在BoxCars21K中都有3个图像,每个轨道已扩展到4个图像。BoxCars数据集是针对细粒度车辆模型进行分类和识别的。数据集中的图像根据车辆身份进行排列。因此,它也可以用于V-reID问题。图8显示了来自BoxCars数据集的样本图像。

3.4. VeRi-776

Liu et al. (2016c)收集的VeRi-776数据集是Liu et al. (2016b)收集的VeRi数据集的扩展。该数据集中所有的车辆图像都是在自然、无约束的交通环境中获取的。数据集是从20个具有任意方向和倾斜角度的监控摄像头中收集的。大多数场景包括双车道、四车道和十字路口。数据集由776辆汽车的50,000张图像组成,其中,车辆的每个图像都是从2 ~ 18个视点获取的,视点具有不同的光照和分辨率。车辆在整个车身、类型、颜色和交叉摄像机车辆相关性上用边框标记。此外,还对所有车辆的轨迹标注了车辆牌照和时空关系。由于该数据集的复发率高,且获取的车辆图像数量多且属性不同,因此在V-reID问题中得到了广泛的应用。在图9显示了VeRi-776数据集中不同车辆的颜色、类型、模型和不同视点。

3.5. Toy Car ReID

Zhou等(2018)收集了玩具车ReID数据集。这是第一个在室内环境中使用多个摄像机采集的合成车辆数据集。数据集包含200辆普通车型的金属玩具车,包括轿车、SUV、掀背车、货车和皮卡。该数据集仅由那些与其真实零件非常相似的金属玩具车构成。此外,照明的变化也被纳入模拟光照变化的太阳。为了获得密集采样视点,每辆车都被旋转360度。相机被设置在三个不同的角度:30度,60度和90度来拍摄不同高度的图像。在每个角度,从50个视点采样车辆图像,然后裁剪生成包含30000幅图像的数据集。样本图像从图10所示。

3.6. VRID-1

Li et al. (2017a)收集了车辆再识别数据-1
(VRID-1)。这个数据集由白天捕获的10000张图像组成。有1000辆独立车辆。对于每种车型,有100辆单独的车辆,对于每种车型,有在不同地点捕获的10张图像。VRID-1中的图像是用326个监控摄像头拍摄的。因此,有各种各样的车辆姿势和照明水平。该数据集为V-reID方法的评价提供了足够高质量的图像。

3.7. PKU-VD

Yan等(2017)收集的PKU-VD数据集包括两个子数据集VD1和VD2,分别基于来自两个城市的真实无约束场景。VD1中的图像(共1,097,649幅)来自高分辨率交通摄像头,VD2中的图像(共807,260幅)来自监控视频。对于两个数据集中的每一幅图像,作者都提供了不同的标注,包括ID号码、精确的车辆型号和车辆颜色。数据集中,ID号码是唯一的,属于同一辆车的所有图像都有相同的ID。此外,作者在数据集中标注了11种常见颜色。来自PKU-VD数据集的样本图像如图11所示。
表3总结了本节中涉及的数据集,包括场所,出版年份,图像数量,车辆数量,品牌,视点数量,V-reID Anno和可用性。
在这里插入图片描述

4. 实验和评价

在实验分析中,我们考虑了8种基于手工特征的方法和12种基于深度特征的方法。这些都是最近发布的两种方法。
为了评估上述V-reID方法的性能,我们选择了四个综合数据集,包括VeRi-776, VehicleID, CompCars和PKU-VD。此选择基于这些数据集的可用属性。这些数据集由具有多个视图的大型车辆模型组成。因此,它们为正确比较不同的V-reID方法提供了合理的信息。此外,我们考虑了两个广泛使用的V-reID性能指标:平均平均精度(mAP)和累积匹配曲线(CMC),用于定量评价。mAP度量评估V-reID的整体性能。计算每个查询图像的平均精度,如公式1所示,
在这里插入图片描述
式中,l为车辆检索排序,n为已获取车辆数量,Mc为相关车辆数量。S (l)表示召回列表中截止点l的精度,c(l)表示第l个召回图像是否正确。因此,该map公式为Eq. 2,
在这里插入图片描述
其中V为查询图像总数。CMC表示查询标识出现在不同大小的候选列表中的概率。k阶CMC可表示为式3:
在这里插入图片描述
其中,当u图像的ground truth出现在rank k之前时,c(u, l) = 1。对于给定的查询图像,只有一个ground truth匹配,CMC评估才有效。
为了便于比较,我们根据标准协议对每个数据集的训练样本和测试样本进行划分。VeRi-776 dataset由776辆车辆的50,000张图像组成,每辆车由2-18个摄像头在不同视点、光照、分辨率和遮挡情况下捕获。训练集有576辆车和37,781张图像,测试集有200辆车和11,579张图像。VehicleID车辆数据集由26267辆车辆的221,763幅图像组成。有13134辆训练车辆110,178幅图像,13133辆测试车辆111,585幅图像。CompCar数据集包含1687种不同车型的136,727辆汽车图像。我们选择Part-I子集进行训练,其中包含431个车型的16,016张图像,剩下的14,939张图像进行测试。对于PKU-VD数据集,我们根据Yan et al.(2017)方案将其分为训练集和测试集。为了建立训练集,我们从每个车辆模型中随机选取近一半的车辆来建立训练集,其余车辆用来建立测试集。将CompCar、VeRI-776和vehicleID中的内部类组数经验设置为分别是5,5,2。学习率每15个epoch除以10,模型训练50个epoch。
在图12中,我们给出了所有方法的四个数据集的mAP结果。基于手工制作特征的方法用红色标注,基于深度特征的方法用蓝色标注。第一、第二、第三和最后一行分别列出了VeRi-776、VehicleID、CompCars和PKUVD数据集上的mAP结果。实验结果表明GSTE Bai et al. (2018), NuFACT Liu et al. (2018), OIM Wang et al.(2017)、DRDL Liu et al. (2016a)和VSTM Shen et al.(2017)的表现优于其他方法。它们是V-reID的最新可用的最先进的方法。Bai et al. (2018) GSTE的性能增益来源于GSTE损失函数,因此GSTE应该能够推广到其他网络结构。事实上,GSTE网络越深,特征表示学得越好。通过比较,基于GSTE损失的网络性能明显优于基于手工特征的网络。跨网络的改进表明GSTE是与深度网络结构共同工作的,以在V-reID中始终保持更好的性能。NuFACT Liu等人(2018)利用了数据的多模态特征。该方法同时考虑了特征域的粗到精搜索和物理空间的近距离搜索。OIM Wang等(2017)的方位不变特征嵌入模块有效处理车辆的多个视图。DRDL Liu等人(2016a)利用双分支深度卷积网络将车辆图像映射到欧几里得空间。它们的耦合簇损失函数和混合差分网络结构是实现高预测精度的关键。VSTM Shen等人(2017)基于视觉-时空-时间路径方案的方法为稳健估计车辆相似性提供了重要先验。
在这里插入图片描述
在这里插入图片描述
图12 基于mAP的结果

在图13中,我们给出了所有方法的四个数据集的CMC曲线。 第一,第二,第三和最后一行分别描绘了VeRi-776,VehicleID,CompCars和PKU-VD数据集的CMC曲线。四行数据表明,GSTE Bai et al.(2018)、NuFACT Liu et al.(2018)、OIM Wang et al.(2017)、DRDL Liu et al. (2016a)和VSTM Shen et al.(2017)的表现优于其他方法。GSTE Bai et al.(2018)在第一行和最后一行的最佳性能表明,在三元组嵌入中引入类内方差结构及其相关的损失函数,相比其他方法有明显的改进。此外,我们可以看到,考虑到大数据和深度网络结构,可以保证更有效的网络训练,对细粒度识别产生更具鉴别性的特征表示。OIM Wang等人(2017)在第二行显示的车辆数据集上的结果优于其他所有方法。OIM基于20个关键点位置提取不同方位的局部区域特征。他们利用对数正态分布对时空约束进行建模来检索精炼的结果。在第三行中,考虑到CompCars数据集,NuFACT Liu等人(2018)超越了所有其他方法。 因此,与VeRi-776和VehicleID相比,NuFACT在CompCar上实现了更好的改进。 实际上,颜色特征与语义属性的融合可以在CompCars上更好地工作。 此外,在训练零空间期间,可以在CompCars上了解更多信息。 因此,NuFACT取得了更大的进步。
图12中的mAP结果和图13中的CMC曲线都显示出基于手工特征的方法和基于深度特征的方法的整体性能差异很大。 深度学习使创建复杂的网络成为可能,其中深层充当一组特征提取器,这些特征提取器通常非常通用,并且在某种程度上独立于手头的任何特定任务。这意味着深度学习直接从对输入图像的观察中提取出一组特征。其线索是发现多层表示,以便更高级的特性可以表示数据的语义,从而为类内的可变性提供更强的鲁棒性。
为了计算复杂度,实验使用了一台16GB内存、4.20 GHz CPU和强大的NVIDIA GPU进行。进一步减少计算复杂性是可能的,因为这些实现没有优化。在表4中,我们提供了基于深度特征(DF)的方法和基于手工特征(HCF)的方法的计算复杂性。这些复杂性是用平均每秒帧数表示的(fps)计算所有数据集。基于深度特征的方法在计算上比基于手工特征的方法复杂。因此,它们每秒执行的帧数更少。
在这里插入图片描述
在这里插入图片描述
图13 CMC曲线

5. V-reID的挑战与未来趋势

V-reID是一个广泛而棘手的问题,有许多悬而未决的问题。本节中,我们讨论了V-reID的一般问题及其更广泛的挑战。
类间和类内的变化:任何V-reID方法的基本挑战是应对类间和类内变化。考虑到类别间的差异,不同的车辆在整个摄像机视图中看起来可能是相似的。同一视点上的两辆车比同一辆车的两种不同视点看起来更相似。考虑到车内的差异,同一辆车从不同的侧面看,在不同的摄像头下会有不同的效果。相机视图对之间的这种变化通常是复杂的和多模态的。不同摄像机视点下的车辆视觉特征存在显著差异。车辆的前、侧、后、顶视点没有重叠的视觉特征。车辆的底盘不像人那样直立,在不同的视角下纹理或颜色会发生严重的变化。因此,车辆在不同视点上的外观差异要大得多。此外,车辆从多个摄像头的不同视图导致变形形状的轮廓和不同的几何形状。
数据要求:通常需要V-reID方法来匹配单个车辆图像到一组图像。这意味着可能没有足够的数据来学习一个良好的模型,每一辆车的类内变异性。´我们讨论的数据集很难反映现实世界监控的挑战。例如,在现实世界的监控中,车辆必须通过大量具有重叠和不重叠视图的摄像机进行跟踪。目前可用的数据集是从有限数量的相机的非重叠视图中收集的,这在分辨率和视点上捕捉较少的变化。由于无约束数据的不可用性,不能考虑时间信息的集成和开发的影响。然而,这类信息对于学习摄像机间的关系很重要,可以通过抑制假阳性来提高V-reID方法的效率。此外,目前的数据集中没有考虑到多辆车的重新识别。
泛化能力:这是训练数据可扩展性的另一方面。如果一个模型是针对特定的一对相机进行训练的,那么它就不能很好地适用于另一对具有不同观看条件的相机。良好的模型泛化能力通常是可取的,它可以被训练一次,然后应用于不同位置的各种不同的相机配置。这将避免训练数据可伸缩性的问题。
Long-term V-reID:视图之间的时间和空间间隔越长,车辆出现并发生某些变化的可能性越大。事实上,摄像机之间分离的性质决定了V-reID系统的难度水平。例如,如果这两张图片是从相似的视角拍摄的,并且只相隔几分钟,那么V-reID建模就很简单了。但是,如果图像/视频是从相隔数小时的不同视角拍摄的,则由于照明和视角的变化,建模将不容易。 这突出了V-reID建模的敏感性。 图像之间的时间隔离是V-reID系统复杂性的关键因素。 因此,V-reID方法应具有一定的鲁棒性。 由于无法使用使用相同或不同组摄像机连续几天记录的长时间视频,当前数据集无法解决长期VreID问题
其他挑战:要开发V-reID模型,需要从图像输入或视频输入中提取特征。在前一种情况下,V-reID系统在图像中检测和定位车辆。在后一种情况下,系统在多个帧间建立被检测车辆之间的对应关系,以确保特征属于同一辆感兴趣的车辆。这个过程称为跟踪,它在多个帧中为每辆车提供一致的标签。V-reID系统使用车辆的多个实例来提取特征并为V-reID生成后续的描述符。然而,车辆检测和多车辆跟踪是不同的问题,有着各自的挑战。此外,由于交通拥挤或杂波可能导致车辆被部分或完全遮挡,因此很难建立识别性视觉描述符模型。它也很难控制诸如分辨率、帧速率、成像条件和成像角度等因素。因此,提取唯一且有区别的描述符取决于高质量观测的可用性。 另外,由于错误的检测和轨迹估计,会影响V-reID系统的质量。
尽管存在这些挑战,但基于深度特征的方法的性能是显而易见的。与其他方法相比,深度学习的一个主要好处是它能够从训练数据集中有限的一系列特征中生成新的特征。与手工制作的基于特征的方法相比,这些方法使用了更复杂的特征集。事实上,深度学习在解决VreID问题时产生了可操作的结果。如果能提供大量的训练数据,可以进一步提高基于深度特征的方法的性能。

6. 结论

本文提出了车辆再识别的问题,并对计算机视觉领域的研究现状进行了综述。详细讨论了基于传感器的方法和基于视觉的方法。我们将基于视觉的方法分为基于手工特征的方法和基于深度特征的方法。对不同数据集的细节进行了介绍和总结。我们也给出了四个基准数据集的结果,考虑了20种不同的V-reID方法,包括基于手工特征和基于深度特征的方法。我们讨论了进一步研究的潜在方向,重点介绍了V-reID问题的未解决问题和挑战。
在我们未来的工作中,我们将收集大规模的真实监控多视角车辆数据集,以改善训练的最新模型,以提高性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值