A Survey of Vehicle Re-Identification Based on Deep Learning(翻译)

摘要:

车辆重新识别是智能交通系统的核心技术之一,对于智慧城市的建设至关重要。随着深度学习的飞速发展,车辆重新识别技术近年来取得了长足的进步。 因此,对基于深度学习的车辆重新识别方法进行全面的调查是必不可少的。基于深度学习的用于车辆重新识别的方法主要有五种,即基于局部特征的方法,基于表示学习的方法,基于度量学习的方法,基于无监督学习的方法以及基于注意力机制的方法。我们调查的主要贡献来自三个方面。 首先,我们对当前的五种基于深度学习的车辆重新识别方法进行全面回顾,然后从特征,优点和缺点中进行比较。 其次,我们对车辆公共数据集进行分类,并从多个维度进行比较。 第三,根据我们的调查,我们进一步讨论了未来车辆重新识别的挑战和可能的研究方向。

关键字:

深度学习,智能交通系统,车辆重识别,车辆公共数据集

Ⅰ 简介

  近年来,计算机视觉领域的技术发展和物联网领域的技术突破促进了智慧城市概念的实现[1]。 作为智能城市应用中的重要对象,车辆引起了广泛的关注,已经进行了许多关于车辆的研究,例如车辆检测[2],[3],车辆跟踪[4],[5],细粒度车辆类型识别[6]-[8]等。车辆重新识别作为一个前沿且重要的研究课题,也在研究领域引起了越来越多的关注,车辆重新识别的目的是通过多个不重叠的摄像机来识别同一车辆[9],如图1所示。
在这里插入图片描述
图1.车辆重识别任务的说明。 将查询图像与由多个摄像机捕获的许多车辆图像(即gallery)进行比较,并获得包含匹配的车辆图像的等级列表(图像选自[92])。

  车辆重新识别是智能交通系统中的核心技术之一。 通过无处不在的监控网络,车辆重新识别系统可以快速获取目标车辆在城市中的位置和时间。 借助车辆重新识别系统,可以在多个摄像机之间自动检测,定位和跟踪目标车辆,从而节省了人工和成本。此外,车辆重识别系统还有许多可能的实际应用,例如智能停车,可疑车辆跟踪,车辆事件检测,车辆计数和自动充电[10]。 此外,它在实时监控或用于城市监控的多视图车辆跟踪等应用中具有至关重要的作用,因此,车辆再识别技术对于未来物联网的发展,以及智能交通系统和智慧城市的建设至关重要。

  尽管行人和车辆都是智能城市应用中的常见对象,但近年来,由于大量注释完备的行人数据以及计算机视觉对人脸和身体图像的重点研究,人们最关注的是人的重识别[120]。与人重识别相比,由于类间相似度小和类内差异大,车辆重新识别更具挑战性。 小类之间的相似性在于,不同汽车的图像看起来可能非常相似。 相同或不同制造商生产的车辆可能具有相似的颜色和形状,因此两个车辆图像之间的视觉差异通常很细微,从而很难区分两个图像是否属于同一车辆。相比之下,人更容易被区分,因为他们有更明显的特征,包括脸和衣服。由于分辨率的差异、视点的差异、光照的差异和其他因素,同一车辆的图像在外观上会反映出较大的类内差异,不同视点的车辆的视觉模式变化要比人的变化大得多,即使视点变化较大,同一人的图像通常也具有相同的外观。

  传统上,通过将传感器数据与车辆通过时间[11]、无线磁传感器[12]等其他线索相结合来解决车辆再识别问题。然而,这些方法需要额外的硬件成本,并且对环境变化非常敏感。除此以外,因为车辆的车牌号码是一个独特的身份,车牌识别技术广泛应用于车辆鉴定工作[13],[14],即利用车牌号识别过往车辆的车牌号,在大量车辆图像中搜索目标车辆。目前,车牌识别技术相对成熟。但在真实的交通环境中,多视角、光照、摄像头分辨率等因素对车牌识别的准确性有着明显的影响,很多情况下无法清晰捕捉到车牌,如车牌被遮挡、修饰、伪造、移除等。通过检索车牌信息不可能精确地定位目标车辆。 因此,基于车辆属性和外观特征(例如形状,颜色,纹理[15],[16])的车辆再识别技术越来越受到关注。然而,这些方法精度不高,因此有效解决当前研究问题所面临的困难和挑战,利用高效、准确的方法提高准确率是车辆再识别领域的研究热点。传统的机器学习采用手工制作的功能,既耗时又效果不佳。 随着神经网络在计算机视觉任务中的发展,基于深度学习的方法比以前的方法具有更高的准确性,并且在真实场景中表现良好。 因此,总结基于深度学习的车辆重识别方法的相关论文是十分必要和及时的。

  据我们所知,对车辆重新识别的综合调查很少。Khan等[17]首次对车辆再识别方法进行了研究,填补了关于车辆再识别的综述文章的空白。他们介绍了不同的车辆再识别方法,包括基于传感器的方法、混合方法和基于视觉的方法,这些方法进一步分为基于手工特征的方法和基于深度特征的方法。但是在[17]中引入基于视觉的方法还不够,只对比2016年到2018年的12篇论文。本文将基于深度学习的车辆再识别方法分为基于局部特征的方法、表示学习方法、度量学习方法、无监督学习方法和注意机制方法五类。这五个类别的介绍中介绍了许多最新的论文。因此,本文对基于深度学习的方法进行了较为全面的综述。

  本文的组织结构如下:第二部分介绍了基于传统机器学习和深度学习的车辆重新识别方法,将其进一步分为五类,并给出了不同方法之间的比较。 第三节对当前的车辆公开数据集进行了排序和比较,并介绍了车辆重新识别的评估策略,此外,我们还比较了一些车辆重新识别方法在Veri-776和VehicleID数据集中的准确性。 第四部分讨论了挑战和可能的未来研究方向。 第五节,我们总结工作。

Ⅱ 车辆再识别方法

  在深度学习兴起之前,传统的机器学习需要手工制作特征,由于依赖于手工调整参数,特征的设计只允许少量的参数。深度学习兴起后,不再需要手工制作特征,而是从大量的训练数据中自动学习特征,包含数千个参数,节省了手工设计特征的大量时间,提取出更好的特征。深度学习和传统机器学习最明显的区别就是是否需要手工制作特征的功能。在本章中,首先,介绍了基于传统机器学习的一些方法,然后重点介绍了基于深度学习的方法,其中包括基于局部特征的方法,基于表示学习方法,基于度量学习方法,基于无监督学习方法,方法基于注意机制和其他车辆重识别的方法。

A.基于传统的机器学习的车辆再识别方法

  传统的机器学习使用特征工程来人为地提炼和清理数据。 通常,它包括三个步骤,分别是特征提取,特征编码和特征分类。 特征提取有3种方法,即尺度不变特征变换[18](SIFT),定向梯度直方图[19](HOG)和局部二进制模式[20](LBP)。

  尺度不变特征变换(SIFT)特征是图像的局部特征,它保持了旋转、缩放和亮度变化的不变性。同时对视角变化、仿射变换和噪声都保持了一定的稳定性。SIFT可以保持特征的唯一性,具有丰富的信息。在海量的特征数据库中可以快速、准确地进行匹配。在速度方面,优化后的SIFT匹配算法性能良好,能够达到实时性要求。此外,SIFT具有良好的可扩展性,可以方便地与其他形式的特征向量进行连接。

  定向梯度直方图(HOG)是计算机视觉和图像处理领域用于目标检测的一种特征描述符。通过计算和计数图像局部区域的梯度方向直方图来构造大面积特征,并使用重叠的局部对比度归一化技术来提高性能。 由于HOG在图像的局部网格单元上运行,因此它可以对图像的几何变形和光学变形保持良好的不变性,从而使这两种变形在较大的空间场中都能很好地工作。 即,在大面积内产生的小变形和光学变化可以忽略不计。 因此,HOG特别适合于目标检测和识别。与此同时,HOG对噪音不敏感。与SIFT相比,HOG用于描述整个区域,而不是SIFT这样的关键点概念。此外,HOG没有旋转不变的特性。 Zapletal和Herout [21]使用颜色直方图和定向梯度直方图(HOG)特征进行线性回归来进行车辆重新识别。 Chen等[22]提出了一种新颖的基于网格的方法,通过提取车辆的HOG特征进行粗略搜索,从而逐个网格地重新识别车辆,并使用它们的配对的直方图(HOM)细化结果。

  局部二进制模式(LBP)是一种简单但非常有效的纹理运算符,它将每个像素与相邻像素进行比较,并将结果保存为二进制数。它最重要的特点是对光照变化等因素引起的灰度变化具有良好的鲁棒性。此外,LBP的计算简单,因此可以对图像进行实时分析。由于LBP具有很强的识别能力和简单的计算优势,可以与其他算子结合应用于不同的场景。在[23]中,利用局部二进制模式(LBP)和连接描述符来实现用于车辆再识别的局部方差度量(VaR)。如表1所示,从多维度比较三种方法。

表1.基于传统机器学习的车辆再识别算法的多维比较:
在这里插入图片描述

  除了SIFT, HOG, LBP,还有许多其他著名的算子,如形状上下文[24],自旋图像[25],自旋图像[25],加速鲁棒特征[26](SURF),时空兴趣点[27](STIP),定向光流直方图[28](HOF)和运动边界直方图[29]。

  传统手工制作的图像特征各有特点,但共同的缺点是泛化能力差,表现为:
1)它只对特定的任务有效,不能根据不同的应用场景进行调整,比如颜色直方图特征。它对图像分类任务是有效的,但对图像的语义分割没有帮助。
2)基于手工制作的功能仅专注于图像的某些方面,例如SIFT专注于图像的局部外观,HOG专注于图像的边缘信息,LBP专注于图像的纹理等,因此泛化能力很差。

B.基于深度学习的车辆再识别方法

  与上述传统的机器学习方法不同,深度卷积神经网络(CNN)引入了许多隐藏层来学习高级特征以提高其泛化能力,不仅在目标重识别任务上实现了良好的性能,而且还可以推广到其他计算机视觉任务,如图像分类、目标检测、语义分割,视频跟踪等。因此,基于深度学习的车辆再识别方法成为近年来的研究热点。

1)基于局部特征的车辆再识别方法

  由于深度学习和CNN的快速发展[30]-[32],在目标重识别方面取得了重大进展。 因为关于车辆重识别的早期研究集中在全局特征上,也就是说,使用整个图来获得用于图像检索的特征向量。 这就导致了精度瓶颈问题,因此一些研究开始关注局部特征,因为相似车辆的差异主要集中在局部区域,如图2所示,每列都是两个外观相似但ID不同的车辆 ,红色圆圈突出显示了局部的差异。
在这里插入图片描述
图2.具有相似外观但不同id的车辆示例

  提取局部特征的常用方法是使用关键点位置和区域分割。 [33]中的方法使用关键点定位和对齐来提取对象关键部分的特征,并根据关键点进行详细比较。 刘等[34]引入了强化学习,以弱监督的方式在细粒度域中自适应找到有区别的区域。 邓等 [35]提出了用于深度学习的点对特征网络(PPFNet),一个全局信息的三维(3D)局部特征描述符,该描述符学习了纯几何上的局部描述符,并且高度了解了全局上下文。

  将基于局部特征的方法应用到车辆的再识别中,Wang等人[36]采使用定位关键点和分割不同区域的方法将车辆图像标记为20个关键点并且得到目标车辆多个区域的分割结果。他们利用卷积神经网络对多个区域分割结果提取区域特征向量,并将其与全局特征向量融合,得到目标车辆的外观特征向量。最后,利用融合后的特征向量对车辆进行再识别和检索,得到的车辆外观特征可以直接比较不同车辆图像中的车辆外观特征,解决了车辆图像之间不同区域无法比较的问题。虽然该方案考虑了姿态对车辆再识别的影响,但由于数据集的多样性,模型的精度受到限制,数据集需要包含大量不同角度的车辆图像。在现实世界中,很难收集到一个数据集,其中包括来自不同角度的车辆图片,并且图片数量达到数十万。 另外,在收集的数据集上,需要为车辆图像的不同角度标记关键点,因此需要标记的关键点数量很大,这导致了巨大的工作量。 因此,该方法在可行性和工作量方面很复杂。

  更多的学者研究基于局部特征的方法。由于同一车型、同一厂家的车辆在整体外观上相似,仅通过全局特征很难区分,因此有些方法将局部特征和全局特征结合起来对车辆进行再识别。Liu等人[37]提出了一种区域感知深度模型(RAM),该模型从局部区域提取特征,而不是只提取全局特征,RAM将详细的视觉线索嵌入到局部区域,因为每个局部区域传达了更多独特的视觉线索。此外,他们引入了一种新的算法,联合使用车辆id、类型和颜色训练模型,融合了更多的线索进行训练,从而得到更具识别力的全局特征和区域特征。还有一个类似的方法,He 等人[38]开发了一个新的框架,通过引入一个检测分支,结合局部和全局约束进行端到端的训练。局部模块专注于部件特征,区分视觉特征的细微差异,部件包括前后灯、前后窗、汽车品牌。利用局部模块中的部分关注度,正则化了全局模块。局部正则化判别特征保留方法增强了对细微差异的感知能力。

  在车辆重识别中,局部信息是非常重要的。为了定位包含更鲜明的视觉线索的局部区域,Peng等[39]提出了多区域模型(MRM)来提取一系列局部区域的特征,针对每个局部区域引入了基于空间变压器网络(STN)的定位模型。他们提出了一种基于上下文的重新排序方法,该方法通过结合上下文和内容来生成重新排序列表,以衡量邻居之间的相似性,提高了车辆重识别的准确性。也有类似的方法。Chen等人[40]提出了一种端到端可训练的双分支分区与重组网络(PRN),它将全局和局部特征结合在一起,构建更健壮的视觉特征。由于显著的局部信息在车辆再识别中非常重要,他们在特征图中采用了沿高度、宽度和通道三个维度的多个分区,从图像的各个维度提取更多的局部特征。但由于高度和宽度属于空间维度,在特征图上提取的相同位置的特征可以被考虑两次,因此将网络分为一个高度通道分支和一个宽度通道分支,以避免将某些空间特征考虑两次 。此外,Zhao等[41]提出了一种基于感兴趣区域(ROI)的车辆再识别方法,该方法从分类模型中提取深层特征,利用单镜头多盒检测器(single shot multibox detector, SSD)的结果。根据检测到的位置提取ROI的局部特征,将这些感兴趣区域特征组合成结构特征,可以对车辆进行独特的标记。该方法的独特性在于将分类模型和检测模型相结合,解决了车辆再识别问题。Ma等人[42]提出了一种改进的零件模型来学习一种有效的特征嵌入。通过网格化空间变压器网络(GSTN)形成零件精细化模型,实现对车辆的自动定位和局部特征的划分。并对细粒度的识别进行剩余注意追加细化,最后将细化后的零件特征融合形成有效的特征嵌入,提高了车辆再识别的准确性。

  综上所述,基于局部特征的方法的优点体现在可以捕捉局部区域传达的独特视觉线索,提高对细微差别的感知,这对于区分不同的车辆,提高车辆再识别的准确性有很大帮助。此外,许多研究者将局部特征与全局特征相结合来提高车辆再识别的准确性。然而,基于局部特征的方法的缺点是局部特征的提取会显著增加计算量。

2)基于表示学习的车辆再识别方法

  在真实的车辆再识别应用场景中,由于相机拍摄角度的显著变化,可能会导致局部关键区域出现显著差异。仅通过局部特征对车辆进行再识别是难以达到高精度的。 由于CNN的飞速发展,在表示学习(特征学习)方面已经取得了重大进展[43],这些表示法是由输入数据的多个非线性变换组成的,以产生用于分类、预测和其他任务[43]的抽象和有用的表示法。表示学习旨在通过训练大量数据来获得有效的数据表示,从而在构建分类器或其他预测变量时更容易提取有用的信息。具体来说,使用CNN训练大量数据,将根据不同的任务要求(例如分类和识别)从图像中自动进行特征提取。 表征学习是重识别领域中非常重要的一种方法,它具有很高的鲁棒性和稳定的训练,已被应用于人的识别[44]。 因此,一些工作将表示学习应用于车辆重新识别的解决。

  从车辆外观中学习更多区分性表示非常重要,Zheng等人[45]提出了DF-CVTC,这是一个统一的深度卷积框架,以有意义的属性为指导,共同学习用于重新识别车辆的深度特征表示,包括摄像头视图、车辆类型和颜色。这些组成部分相互协作,从而提高了对已习得表征的辨别能力,除此之外,为了提高视图数据的多样性,开发了车辆生成模型VS-GAN。在[46]中提出了一种基于多粒度深度特征融合(DFFMG)的车辆再识别方法,该方法结合全局特征融合和局部特征融合,对车辆图像进行垂直和水平两个方向的分割,融合不同粒度的识别信息。DFFMG包括一个用于全局特征表示的分支,两个用于垂直的局部特征表示,另外两个用于水平的局部特征表示。

  一些基于表示学习的方法具有新颖独特的思想。Hou等人[47]提出了一种基于随机遮挡辅助深度表示学习的车辆再识别算法。该算法的独特之处在于采用了随机遮挡的方法对原始训练图像进行随机遮挡,在一定程度上模拟了现实世界中的一些遮挡情况。此外,它增加了训练样本的数量并防止了模型的过度拟合,然后通过开发的网络对原始图像和遮挡图像进行训练,进行联合识别和验证学习优化。 Krause等[48]认为将对象建模为未连接视图集合的二维表示会限制其跨视点泛化的能力,因此,他们将两种最先进的二维物体表征从外观和位置上提升到了三维。三维对象表示已广泛用于多视图对象类别检测的上下文和场景理解中,但尚未广泛用于细粒度分类中,他们提供了对细粒度分类的三维重建这一具有挑战性的任务的第一个实验结果,并展示了他们的三维对象表征在细粒度分类方面比最先进的二维对象表现更好。在[49]中提出了一个基于深度学习的框架,该框架可以有效地表示车辆。该框架的关键是采用学习变分(varation)特征来生成变分特征,这些变分特征具有更强的区分性和较长的短期记忆(LSTM) ),这些特征可用于了解车辆不同视点之间的关系。该框架的优点是可以得到对车辆图像具有高度识别力的表示,提高了车辆再识别的性能。此外,利用KL(kullbackleibler)散度进行变分特征学习的想法不仅可以提高车辆再识别的性能,而且可以提高在其他相似场景中物体表示的质量。

  其他基于表示学习的方法。 为了解决数据标记,数据集之间的视觉域不匹配以及同一车辆的不同外观等问题,Wu等人[50]提出了一个基于CNN的车辆重识别系统,利用基于时空先验的自适应表示学习技术从未标记的测试视频中自动获得正负训练样本。他们以多任务学习的方式训练了车辆特征提取器,并在目标域上对特征提取器进行了微调,从而使深层网络可以适应测试视频的视觉域。 为了加速表示学习的过程,在[51]中提出了一种新的距离损失,它把同一车辆的样本视为一个图像集,并且将同一集合中的样本拉得彼此靠近,并且将不同集合推离彼此。利用这种方法来指导网络训练过程优化图像集之间和内部的距离,该方法的优点在于其效率优于常用的从样本出发的三联体损失方法。江等人[52]提出了一种多属性驱动的车辆重新识别方法,该方法包括一个多分支体系结构和一种学习识别性表示的重新排序策略。 多分支体系结构显式地利用了车辆属性提示(例如颜色,模型)来增强泛化能力。 重新排序策略引入了来自多个摄像机的车辆之间的时空关系,以构造相似的外观集,并利用这些相似外观集之间的Jaccard距离。

  目前,重识别工作主要开展两类工作。一是将再识别任务视为分类问题,即根据被标记车辆信息作为监督条件,输入大量车辆图像数据,利用分类损失函数进行分类学习。根据预测的车辆类别信息计算损失,通过连续的正向传播和反向反馈减少分类学习的损失,从而实现车辆的细粒度分类任务。但是,交通监控视频中出现的车型数量较多,车型种类和车辆数量逐年增加。因此,使用分类学习,即将重新识别作为一项细粒度的车辆分类任务,会导致数据域的过拟合。当样本数量较多时,很难对学习进行有效的分类,从而在准确性上出现瓶颈。

  车辆再识别任务的另一种工作是车辆验证问题,即输入印有车辆身份信息的两张车辆图片,判断两辆车辆是否属于同一身份。通过使用验证损失进行验证学习,可以逐渐减少损失,以满足区分两种车辆的要求。然而,验证学习只能判断成对的两幅图片的相似度,但由于是一对一的比较,耗时较长,难以应用于目标聚类和检索。此外,仅凭车辆的ID信息,验证模型的泛化能力和表示能力也不够。因此,有必要引入车型、颜色等车辆属性标签,通过向神经网络‘‘馈入足够的标记信息,增强验证模型的学习能力和表示能力。

  总之,表示能力在车辆的重新识别中起着重要的作用,基于表示学习的方法可以根据任务要求自动提取目标特征,此外,它们相对鲁棒,训练更稳定并且结果易于再现,但是, 基于表示的方法的泛化能力差,易于在数据集域上过度拟合,并且当训练样本的数量增加到一定程度时,它们似乎较弱。

3)基于度量学习的车辆重新识别方法

  度量学习[53],即距离度量学习或相似度学习,是一种通过特征变换映射到特征空间,然后在特征空间中形成聚类的方法。基于度量学习的方法被广泛用于面部识别,行人重新识别和车辆重新识别。 度量学习通过网络学习两个图像的相似性,从而使相似目标的距离变得更近,而不同目标的距离也变得更远。以车辆重新识别为例,度量学习使属于同一ID的两辆车之间的距离小于不同的ID。 (属于相同ID的车辆之间的相似度较高,而属于不同ID的车辆之间的相似度较低)。因此,度量学习要求学习目标具有一定的关键特征,即个性化特征。在区分不同车辆时,车辆的外观特征非常相似,这些特征属于车辆间的共性特征。车辆上的油漆、贴纸、划痕、车辆在前挡风玻璃上的年检位置、装饰、纸巾盒等识别特征,用以区分两辆车的不同特征。度量学习通过学习关键的识别特征来区分不同的身份。

  度量学习损失的常用方法包括对比损失,三重损失,四元数损失等。输入两幅图片X_1和X_2,可以通过网络前向传播提取特征向量f _x1, f _x2。用欧氏距离来描述相似性,定义欧氏距离公式为(1):
在这里插入图片描述
a:对比损失
  利用对比损耗来对Siamese网络进行训练。Siamese网络是一种“连接神经网络”,其网络结构如图3所示。神经网络的“连接体”是通过共享权值实现的,即两个神经网络的权值相同。Siamese网络主要用来衡量两个输入之间的相似性,两边可以是CNN或LSTM。例如,当输入两幅图像时,这两个输入被输入到两个神经网络中,这两个神经网络分别将输入映射到新空间,从而使输入在新空间中表示。通过计算损失值来评估两种输入的相似性。
在这里插入图片描述
图3.Siamese网络结构示意图

  以车辆再识别为例,Siamese网络的输入为一对车辆图片
X_1和X_2,它们可能是属于同一ID的车辆,也可以是属于不同ID的车辆。每对训练图片都有一个标签y,其中y= 1表示这两张图片属于同一个ID,即为正样本对;y = 0表示两幅图属于不同的id;即负样本对。对比损失函数为(2)。
在这里插入图片描述
d x 1 , x 2 = ∥ f x 1 − f x 2 ) ∥ 2 d_{x1,x2}=\left \| f_{x1}-f_{x2}) \right \|_{2} dx1,x2=fx1fx2)2

4)基于无监督学习的车辆再识别方法

大多数处理再识别问题的方法都受到监督,影响泛化能力,例如,训练需要大量有标签的数据。而无监督学习技术可以通过直接从未标记的输入数据中进行推断来解决这类问题[75],并已被有效地应用于人员重新识别[76]-[78]。Deng等人[77]在训练中提出了一种无监督的图像跨域自适应方法,利用自相似性和域异性,他们使用由Siamese神经网络组成的相似性保持GANs,利用对比损失进行重新识别。Wang等人[78]提出了一种基于属性-身份联合学习的方法,可以同时学习源域中的语义和属性,并将其转移到目标域中,实现无监督学习。
一些研究人员已经将无监督的方法用于车辆重新识别。在[75]中提出了一个渐进的两步级联框架,它本质上将整个车辆再识别问题形成了一种无监督的学习范式,它结合了用于特征提取的CNN架构和一种无监督技术,从而实现了自定进度的渐进学习,它还将上下文信息纳入到提出的渐进框架中,显著提高了学习算法的收敛性。Marin-Reyes等[79][80]的方法应用于车辆鉴定任务创建一个注释以一种无监督的方式,以及利用视觉跟踪生产弱标记训练集,巴希尔et al。[81]提供了一个无监督的方法解决车辆鉴定问题通过自学培训基地网络架构进步无监督学习架构,该技术使深入学习的表示法向未标记数据集的转换成为可能。
综上所述,无监督学习技术可以利用未标记的输入数据来提高泛化能力。在基于无监督技术的车辆再识别方法中,基于gan的方法得到了广泛的应用。GANs可以对单一视角图像生成多个视角特征,利用这些特征解决多视角下的车辆再识别问题,GAN可以用于图像的图像平移,更好地解决不同数据域分布不一致的问题。但是使用GANs生成图像需要克服收敛困难的问题,并且在训练中平衡两种模型,从而避免不稳定的训练情况。

5)基于注意机制的车辆再识别方法

近年来,大多数关于深度学习和视觉注意机制相结合的研究都集中在使用mask来形成注意机制上。[掩码的原理在于通过另一层新的权重,将图片数据中关键的特征标识出来,通过学习训练,让深度神经网络学到每一张新图片中需要关注的区域,也就形成了注意力。]mask通过识别另一层新权重的图像数据中的关键特征来起作用,注意力是通过训练深度神经网络来学习每个新图像中需要关注的区域而形成的,这种想法演变成两种不同类型的注意力, 软注意力和硬注意力。软注意的关键在于它更多地关注区域[96]或通道[97],软注意是确定性注意,可以通过学习后通过网络直接产生。最关键的地方是软注意是可微的,这是一个非常重要的地方,微分注意可以通过神经网络计算梯度,通过前向传播和后向反馈来学习注意的权重[98]。强注意[99]和软注意的区别在于,强注意更集中于点,即图像中的每一个点都有可能延伸注意。同时,强注意是一个随机的预测过程,更强调动态变化。
注意机制在许多领域得到了广泛的应用,比如说,图像分类用[100], [101], 细粒度的图像识别[102], [103],图像描述[104], [105],VQA (Visual Question Answering,视觉问答) [106],越来越多的研究者将注意机制应用于车辆再识别。Guo等人[9]提出了一个由多粒度排序损失(TAMR)监督的两级注意网络学习一种有效的特征嵌入方法,用于车辆再识别任务,两级注意网络包括硬部分级注意和软像素级注意。设计了难部件级注意的车辆突出部件定位方法。软像素级注意在像素级给予额外的注意细化,以关注每个部分的独特特征。因此,二级注意网络能够自适应地从车辆视觉外观中提取区分特征。基于区域感知深度模型[37],Chang等[107]提出了一种金字塔粒度关注模型(pam),既能有效地提取粗粒度特征,又能有效地提取细粒度特征,并通过采用多种改进的模型训练方法来保持细粒度的可辨识性。
有一些方法是基于硬注意力的。Khorramshahi等[108]发现每个关键点的贡献因方向不同而不同,而大多数再识别方法都将注意力集中在关键点位置,因此提出了一种双路径自适应车辆再识别注意力模型(AAVER),全局外观路径捕获汽车的宏观特征,而定向约束部分外观路径通过集中注意力于信息最丰富的关键点来学习捕获局部判别特征。Khorramshah等人[109]提出了一种基于注意力的模型,该模型通过在可见关键点上调节特征地图来学习关注不同的部分。他们使用不同的数据集来训练网络,并使用三重嵌入来降低从网络集合中获得的特征的维数。
有一种基于软注意的方法。Teng[110]提出了一种基于DCNN的空间和通道注意网络(SCAN),该注意模型包含一个空间注意分支和一个通道注意分支,两个分支通过调整不同位置和不同通道的输出权重,分别突出区分区域和通道的输出。通过注意模型对特征图进行细化,自动提取出更多的判别特征。
还有许多其他方法。当人们识别不同的车辆时,人们总是先确定一辆车的粗粒度类别,如车型,然后依靠微妙的视觉线索识别特定的车辆,如细粒度级别的挡风玻璃贴纸。受此启发,Wei等人[111]提出了端到端的基于RNN的车辆再识别分层注意(RNN-HA)分类模型。RNN- HA模型由三个模型组成,第一个模型生成图像表示,第二个模型建立层次依赖关系,最后一个模型关注于捕捉细微的视觉信息来区分特定的车辆。此外,张等人。 [112]引入了部分引导注意力网络(PGAN),PGAN在端到端框架中结合了部分引导的自下而上和自上而下的注意力,全局和部分视觉功能。PGAN首先检测到不同部位成分和显著区域的位置,这是自下而上的注意,以缩小可能的搜索区域,提出了零件注意模块(PAM)以自适应地定位具有高注意权重的最有区别的区域 并以相对较低的重量抑制了无关零件的分散。PAM受re-identification loss的影响,因此提供了自上而下的关注。 最后,汇总了全局外观和零件特征以进一步改善特征性能。
综上所述,注意力机制模仿了重新识别人类的过程,深度神经网络可以通过训练了解哪些区域需要集中注意力。图7(来自[111])显示了一些车辆图像的学习注意图,参与区域准确对应这些微妙和有区别的图像区域,如挡风玻璃贴纸,定制绘画。注意机制自动提取识别区域的特征,提高了车辆再识别的准确性。但可以发现,大多数基于注意的模型将注意力集中在区域上,较少关注细像素水平的差异,当数据集标记较少,背景较复杂时,基于注意机制的方法效果较差。

6)其他车辆重新识别方法

总结

为了进一步发展基于深度学习的车辆再识别方法,本文对车辆再识别方法的特点、优缺点进行了比较,如表2所示。对2013-2019年基于深度学习的车辆重识别方法的论文进行了分类,总结了每种方法的特点,如表3所示。我们统计了2013年至2019年每一类基于深度学习的车辆再识别论文数量,如图8所示。2013年到2016年,基于深度学习的车辆再识别方法很少,更多的方法是基于传感器和传统机器学习。2017 - 2019年,基于深度学习的车辆再识别方法逐渐增多,说明随着深度学习的发展,深度学习方法可以更好地解决车辆再识别问题。就方法的数量而言,基于局部特征和表示学习的方法很少,而基于度量学习的方法却很多。近两年来,基于非监督学习和注意机制的方法得到了快速的发展,大部分基于非监督学习方法都是基于GANs的。基于无监督学习的方法可以利用未标记的输入数据提高泛化能力,利用GANs可以生成多视角特征,有利于解决多视角下的车辆再识别问题。基于注意机制的方法可以自动提取识别特征,提高再识别的准确性。由于这些优点,这两种方法近年来发展迅速。

表2 基于深度学习的车辆再识别算法的多维度比较

方法特色优点缺点
局部特征重点定位和区域分割捕捉独特的视觉线索;提高对细微差别的感知增加计算量
表征学习关注车辆属性方便训练;训练稳定,相对鲁棒泛化能力弱;容易过拟合
度量学习关注车辆细节高准确率训练不稳定且不易收敛
非监督学习不需要标签信息解决视角变化的影响;泛化能力提高;解决不同数据域分布不一致的问题训练不稳定
注意机制自适应提取特征通过训练了解哪些领域需要重点关注;提取有区别区域的特征标记数据少、背景复杂时效果差

表3 2013-2019年基于深度学习的车辆再识别方法论文分类统计

在这里插入图片描述
图8 2013年至2019年基于深度学习的各类车辆再识别论文数量

Ⅲ 数据集和评估策略

表4 车辆公共数据集多维比较表
在这里插入图片描述
为了评估车辆重新识别方法的性能,本文对这两种方法在veri-776和VehicleID数据集上的准确性进行了分类,因为这两个数据集由具有多个视图的车辆组成,而且,许多车辆重新识别方法 通过这两个数据集上的mAP和Rank值反映了它们的性能。表5中显示了veri-776数据集上车辆重新识别算法的准确性。表6中显示了VehicleID数据集上车辆重新识别算法的准确性。最高值以粗体显示。

表5. veri-776数据集上车辆重新识别算法的准确性
在这里插入图片描述
表6 VehicleID数据集上车辆再识别算法的准确性

Ⅳ 面临的挑战和可能的研究方向

A.挑战

虽然车辆再识别的研究工作已经开展多年,但由于受车辆数据集规模和拍摄环境监测多样性的限制,研究工作仍面临挑战。在交通监控视频场景中进行车辆重新识别时,不同的摄像头对图像的分辨率不同,另外,由于相机安装的角度不同,光照条件也不同,导致同一辆车在不同的相机中角度、比例、颜色都不一样,给车辆的重新识别带来很大的困难。总结车辆再识别工作面临的困难和挑战,包括:
1)公共数据集数量有限:由于车辆和驾驶员隐私、社会安全等因素,公共可利用的车辆数据集规模不够大。而同一数据集中的车辆数量、车辆类型、颜色等属性也相对简单。
2)类间相似度小,类内差异大:类间相似度小体现在同一汽车品牌或不同厂家生产的汽车外观相似。同类产品之间的差异很大,体现在同一辆车由于相机角度、白天的阳光、晚上的灯光等因素,看起来会不一样。
3)视角差异:由于交通视频监控系统中摄像头的位置不同,导致摄像头的高度和角度不同,导致同一辆车在不同摄像头的视频帧中视角不同。
4)白天阳光、夜晚灯光的影响:由于一天内交通视频监控系统中摄像头的光照条件不同,不同摄像头拍摄的同一辆车由于光照条件的变化,其颜色特征会有很大差异。此外,夜间拍摄的车辆图像与白天拍摄的图像完全不同,这是因为夜间有路灯和其他灯光。
5)遮挡:由于车辆行驶路线的不可控性和道路条件的多样性,在交通监控摄像头下的车辆图像通常具有路标遮挡,电线遮挡和树枝遮挡的情况。
6)尺度变化:由于交通监控摄像机拍摄车辆的高度或距离不同,在不同的监控摄像机下车辆的大小是不同的,这就会带来车辆太大,拍摄不完整,车辆太小,难以识别等问题。
7)分辨率变化:交通监控摄像头的标准等因素导致同一辆车的分辨率差异较大,越老越低,越新越高。早期相机拍摄的图像分辨率较低,使得车辆很难重新识别。
8)变形:由于交通事故造成车辆变形,或者由于不同的载荷,车辆的形状发生了很大的变化。
9)背景干扰:当画面背景颜色与车辆颜色接近时,车辆重新识别会受到干扰。

B.可能的研究方向

车辆再识别技术作为智能交通与监控的核心技术之一,在维护社会公共安全、建设智慧城市等方面发挥着关键作用。近年来,随着深度学习的深入发展,基于深度学习的车辆再识别方法受到了越来越多的关注。结合现有的方法和开放的车辆数据集,基于我们的调查,我们个人认为未来的几个研究方向包括:
**1)时空信息的辅助:**现有的车辆再识别方法大多没有考虑到时空信息的辅助。搜索范围是从时间尺度上的近距离到远距离,搜索范围在空间尺度上从附近的摄像头延伸到远处的摄像头,使用近到远原理处理搜索过程可以为车辆重新识别任务提供很大的帮助。然而,在真实的监测场景中,交通状况、道路图和天气都会影响车辆行驶路线,如何有效地利用时空线索仍然是一个挑战。
2)具有更多信息的数据集:现有车辆再识别数据集(北京邮电大学的VeRi-776,北京大学的VehicleID和北京大学的PKU-VD)没有提供原始的视频和摄像机校正信息,因此不能用于基于视频的跨摄像机车辆跟踪,缺乏对车辆进行大范围跟踪的能力。随着CityFlow数据集的引入,为未来的多目标车辆跟踪提供大规模的车辆跟踪成为可能。另外,很多数据集不提供时空信息,限制了利用时空信息实现辅助车辆再识别方法。
3)多视角再识别:与近年来的研究热点人物再识别相比,车辆再识别主要面临两大挑战:一个是类内的高度可变性(由于视角变化引起的车辆图像变化大于人的变化),另一个是类别之间的高度相似性。 (因为不同汽车制造商生产的汽车外观非常相似)。在未来的研究工作中,为了解决第一类挑战,提高不同视角下车辆再识别的准确性,首先需要组织大规模的多视角车辆数据集。在此基础上,我们可以考虑使用GANs方法通过建模来学习输入视角与其他隐藏视角之间的相关性,并学习转换模型以从其他视角推断特征,即给定的单视角特征可以合成多个 视图特征,并结合度量学习将合成的多视图特征嵌入到距离空间中,从而改善了在多个视图视角下车辆重新识别精度低的问题。
4)将检测任务与再识别任务相结合:当前的车辆再识别任务是基于裁剪的车辆图像,换句话说,再识别任务假设车辆检测到的边界框是准确的,但是,现有的测试任务无法确保完整的测试正确无误,车辆检测的质量可能会影响车辆重新识别任务的准确性。因此,未来可以将检测任务和再识别任务结合集成到一个端到端的框架中,分析和解决检测任务偏差对车辆再识别任务准确性的影响,仍是一个挑战。
5)综合多种方法提高车辆再识别的准确性:很多研究者认为车辆再识别是细粒度车辆识别的分类任务,但无法进行准确匹配。考虑到分类学习和度量学习的特点,分类任务训练容易,度量学习擅长细节的细分。结合不同方法的特点,有效地将它们进行整合,可以实现方法的优势互补,提高车辆再识别的准确性。
6)借助转移学习等方法,将车辆重新识别技术有效地应用于实际交通场景:由于数据分布的差异,从一个数据集学习到的特征可能不适用于另一个数据集,在现有的车辆数据集上训练的模型可能不能完全适用于真实的交通场景。此外,不同城市的车辆类型可能不同,通过对现有数据集的训练,将车辆再识别模型应用于真实交通场景仍是一个挑战,需要进一步的研究。迁移学习使训练领域不同于测试领域的数据分布,通过迁移学习等方法,将车辆再识别技术有效地应用于真实的交通场景中。

Ⅴ 结论

随着社会公共基础设施的完善,道路上的车辆数量逐年增加,这就对监控摄像头下的车辆分析能力提出了更高的要求。车辆再识别技术的出现,满足了公共安全和智慧城市建设的需求,也为全面提高交通管理和服务水平提供了保障。辆重新识别是近年来受到广泛关注的问题。本文重点研究了基于深度学习的车辆再识别方法,并将其分为基于局部特征的方法、基于表示学习的方法、基于度量学习的方法、基于无监督学习的方法和基于注意机制的方法。并对这些方法的特点、优缺点进行了比较。车辆公共数据集对车辆再识别的准确性有很大的影响,因此,本文对近年来用于车辆再识别的车辆数据集进行了总结,并给出每个数据集的规模,车辆数量,模型数量,颜色数量,特征和应用的列表。此外,还介绍了一些常用的评价车辆再识别算法性能的策略,并在veri-776和VehicleID上比较了几种车辆再识别方法的准确性。最后总结了车辆再识别所面临的困难和挑战,并讨论了未来可能的研究方向。通过对基于深度学习的车辆再识别方法的调查,希望能为今后的研究提供指导和帮助。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值