Person Re-identification:Past,Present and Future笔记

liang zheng 2016年的综述: Past, Present and Future 写了从传统方法到深度学习,从图片到视频的行人重识别的方法。原文链接:https://arxiv.org/abs/1610.02984
还有LiangZheng在https://arxiv.org/abs/1604.02531 中提出对于行人检测框和重识别关系的讨论,在论文中他们采用了各种detector+各种recogniser的组合。比如最常见dpm+CNN。来探索那种组合更能提高重识别结果。

0 摘要

将当下re-ID方法分为两类:基于图像(image-based) 和 基于视频序列(video-based
)。具体讲了更接近实际应用的心得reid任务,在大的图片库(gallery)应用端到端的reid( end-to-end re-ID )和快速reid( fast re-ID )。文章的几个方面:
(1)reid历史,和图像分类(image classification)、实例检索(instance retrieval)之间的的关系;
(2)基于图像和视频序列的一些reid方法;
(3)end-to-end reid和大型gallery快速检索的未来方向;
(4)一些重要但尚未充分发展的问题(finally briefs some important yet under-developed issues)。

1 introduction

一个故事引出re-identification定义:“To re-identify a particular, then, is to identify it as (numerically) the same particular as one encountered on a previous occasion”(就是(在数字上,量化)将其确定为与以前遇到的某一特定情况相同)。
由于(1)公共安全需求上升;(2)大规模摄像监控网络广泛传播。在不同摄像头下追踪特定目标,仅仅依赖单一人力成本太高。
技术上讲,reid分三个模块:行人检测,行人跟踪和行人检索。
From the perspective of computer vision, the most challenging problem in re-ID is how to correctly match two images of the same person under intensive appearance changes, such as lighting, pose, and viewpoint, which has important scientific values.
近年来关于reid的论文数量:
在这里插入图片描述

1.1 history

源于多摄像头追踪(multi-camera tracking)
Multi-camera tracking , was tightly twined with multi-camera tracking, in which appearance models were integrated with the geometry calibration among disjoint cameras.(它与多相机跟踪紧密结合,其中外观模型与不相交相机之间的几何校正标定相结合)在1997年,Huang和Russell[9]提出了一个贝叶斯公式来估计一个相机中物体出现的后验,给出了在其他相机视图中观察到的证据。外观模型包括多种时空特征,如颜色、车辆长度、高度和宽度、速度和观测时间。在[8]中可以对多摄像机跟踪进行全面的调查。
Multi-camera tracking with explicit “re-identification” 2005年,Wojciech Zajdel, Zoran Zivkovic and Ben J. A. Kr¨ose from the University of Amsterdam [10].在他们的论文《跟踪人类:我以前见过这个人吗?》(keeping track of humans:Have I seen this person before?), Zajedel等人的目标是“当一个人离开视野,稍后重新进入视野时,重新识别这个人”。在他们的方法中,假设每个人都有一个独特的潜在标签(unique,latent label),并定义了一个动态贝叶斯网络来编码标签和特征(颜色和时空线索)之间的概率关系。入画人员的ID由近似贝叶斯推理算法计算的后验标签分布决定。
The independence of re-ID (image-based) 一年后的2006年,Gheissari et al.[11]等人使用时空分割算法后的人的视觉线索进行前景检测。基于颜色和突出的edgel直方图的视觉匹配可以通过铰接行人模型或黑辛仿射兴趣点算子来实现。实验是在一个数据集上进行的,44人被3台摄像机捕捉到的适度的视图重叠。注意,虽然Gheissari等[11]设计了一种利用视频帧进行时空分割的方法,但是特征设计和匹配过程都没有使用视频信息,因此我们将[11]分类为基于图像的reid。该工作[11]标志着人的身份识别与多摄像机跟踪的分离,并开始作为一个独立的计算机视觉任务。
Video-based re-ID最初的目的是在视频中跟踪,大多数reid工作的重点是图像匹配。在2010年,针对多镜头re-ID提出了两项工作[12]和[13],其中帧数随机选取。在这两部作品中,颜色都是一个常用的特征,Farenzena等人的[13]还使用了分割模型来检测前景。对于距离测量,两种方法都是计算两个图像集中边界框之间的最小距离,以及Bazzanietal。进一步使用巴塔查里亚距离作为颜色和共性的缩影特征。结果表明,与单帧版本的[12]、[13]相比,人均使用多帧有效地提高了识别精度,并且随着所选帧数的增加,识别精度将趋于饱和。
Deep learning for re-ID在2014年,深度学习的成功在图像分类[14]传播到re-ID,易建联等。[15]和李等。[16]都采用(siamese neural network)暹罗神经网络[17],来确定一对输入图像是否属于相同的ID。选择暹罗模型的原因可能是训练样本的数量为每个身份是有限的(通常两个)。除了参数设置的一些变化外,主要的区别是[15]在网络中添加了额外的(cost function)成本函数,而[16]使用了更精细的主体分区。实验数据集在[15]和[16]中没有重叠,因此这两种方法不能直接比较。虽然在小数据集上它的性能还不稳定,但深度学习方法已经成为reid中一个流行的选择。
End-to-end image-based re-ID虽然大多数作品在实验中使用手工裁剪的box或固定探测器产生的box,但有必要研究行人探测器对re-ID精度的影响。2014年,Xu等人通过结合检测(共性)和re- id(独特性)评分来解决这个问题。实验表明,在校园数据集中,联合考虑检测和re-ID置信度比单独使用具有更高的检索精度。

1.2 Relationship with Classification and Retrieval

从训练类与测试类的关系来看,Person re-ID介于图像分类[14]和实例检索[19]之间(表1)。对于图像分类,每个类都有训练图像,测试图像属于这些预定义的类,如表1所示。例如检索,通常没有训练数据,因为事先不知道查询的内容,而且gallery库可能包含各种类型的对象。因此训练集是“不可用的”,而测试类(查询)则表示为以前“不可见的”。与图像分类相比,person re-ID的相似之处在于,训练集是可用的,其中包括不同身份的图像。Person re-ID也类似于实例检索,因为测试ID标识是不可见的:它们与训练ID标识没有重叠,只是训练和测试图像都是行人的。
在这里插入图片描述
因此,person reid可以定位为同时利用分类和检索。一方面,通过训练集、有区别的距离度量[20]或特性嵌入[16],可以在人的空间中学习[21]。另一方面,当涉及到检索时,有效的索引结构[22]和哈希技术[23]可以有利于大型图库中的reid。在本研究中,我们将介绍或指出有效的学习方法和有效的检索方法作为未来的重要方向。

2 Image-based Person Re-ID

Since the work by Gheissari et al. in 2006 [11], person reID has mostly been explored using single images. Let us consider a closed-world toy model, in whichG is a gallery (database) composed of N images, denoted as{gi}N i=1. They belong to N different identities 1,2,…,N. Given a probe (query) image q, its identity is determined by:
在这里插入图片描述
where i∗ is the identity of probe q, and sim(·,·) is some kind of similarity function.
可见reID必备的两个因素:image description and distance metrics.

2.1 Person Description

在行人描述中,最常用的特征是颜色,纹理特征则较少。在[13]中,行人前景与背景分割,计算出车身的不对称轴对称。基于体结构,计算了加权颜色直方图(WH)、最大稳定颜色区域(MSCR)和复发性高结构斑块(RHSP)。WH为对称轴附近的像素分配较大的权重,并为每个部分形成颜色直方图。MSCR检测稳定的颜色区域,并提取颜色、面积和质心等特征。相反,RHSP是一个纹理特征捕捉重复的纹理补丁。Gheissari等人提出了一种时空分段的方法来检测稳定的前地雷区。对于局部区域,计算了HS直方图和edgel直方图。后者编码了edgel两侧的主要局部边界方向和RGB比值。灰度和道[24]在亮度通道上使用8色通道(RGB,HS,andYCbCr)和21个纹理过滤器,行人被划分为水平条纹。后来的一些作品[25],[26],[27]采用了与[24]相同的一组特性。类似地,Mignon等人[28]利用RGB、YUV、HSV通道和水平条纹中的LBP纹理直方图构建特征向量。
与之前描述的作品相比,hand_crafted手工制作的功能在近年来基本保持不变,有[20],[29],[30],[31],[32]。赵等人在[30]、[33]、[34]等一系列工作中,从每个10×10个步长为5像素的密集采样的patch中提取32-dim LAB color histogram和128-dim SIFT descriptor;这个特性也在[35]中使用。邻接约束搜索用于在gallery图像库中寻找具有相似纬度水平条纹的查询补丁的最佳匹配。Das等人使用HSV直方图在头部、躯干和腿部从[12]提出的轮廓。Li等人也从patch中提取局部颜色描述符,但是使用分层高斯化[37]对它们进行聚合来捕获空间信息,这个过程之后是[38]。Pedagadi等人使用PCA对HSV和YUV空间进行降维前提取颜色直方图和矩。Liu等人[40]提取每个局部patch的HSV直方图、梯度直方图和LBP直方图。为了提高RGB值对光度变化的鲁棒性,Yang等人[41]引入了基于显着颜色名称的颜色描述符(SCNCD)用于全局行人颜色描述。分析了背景和不同颜色空间的影响。提议最大发生(LOMO)描述符,包括颜色和粉化图。在go max池和三尺度金字塔模型下,在对数变换之前建立了相同水平条纹的箱子。LOMO后来被[42]、[43]使用,Chen等人也使用了类似的一组特性。在[44]中,Zheng等人提出为每个局部patch提取11-dim color names descriptor[45],并通过bag of words (BoW)模型将它们聚合成一个全局向量。在[46]中,提出了一种分层高斯特征来描述颜色和纹理线索,该特征通过多个高斯分布对每个区域进行建模。每个分布表示区域内的一个补丁。
除了直接使用低层颜色和纹理特性外,另一个不错的选择是基于属性的特性,可以将其视为中层表示。与低级描述符相比,属性对图像翻译的鲁棒性更强。 在[47]中,Layne等人在VIPeR数据集中标注了15个与服装和软生物识别相关的二进制属性。底层颜色和纹理特征用于训练属性分类器。属性加权后,将得到的向量集成到SDALF[13]框架中,与其他可视化特性融合。Liu等人对潜在Dirichlet分配(LDA)模型进行了改进,使用带注释的属性过滤掉了有噪声的LDA主题。Liu等人提出以无监督的方式发现一些具有共同属性的行人原型,并根据原型自适应确定不同查询人的特征权重。最近的一些著作借用外部数据进行属性学习。在[50]中,Su等人将同一个人不同相机的二元语义属性嵌入到一个连续的低秩属性空间中,使得属性向量在匹配时更具鉴别性。Shi等人提出从现有的时尚摄影数据集中学习一些属性,包括颜色、纹理和类别标签。这些属性被直接传输到监控视频下的reid中,从而获得具有竞争力的结果。最近,Li等人[52]收集了一个具有丰富注释行人属性的大型数据集,以方便基于属性的reid方法。

2.2 Distance Metric Learning

在hand-crafted的reid系统中,良好的距离度量对于它的成功是至关重要的,因为高维视觉特性通常不能捕获样本方差下的不变因素。 可以在[53]中全面了解度量学习方法。这些度量学习方法被归为w.r.t监督学习与非监督学习、全局学习与局部学习等。在人的reid中,绝大多数工作都属于有监督的全局距离度量学习的范畴。
全局度量学习的一般思想是将同一类的所有向量保持更近的距离,同时将不同类的向量进一步推开。最常用的公式是基于马氏距离函数类,它利用特征空间的线性缩放和旋转来推广欧氏距离。两个向量xi和xj之间距离的平方可以写成,
在这里插入图片描述
where M is a positive semidefinite matrix(正半定矩阵). Equation 2 can be formulated into the convex programming problem suggested by Xing et al. [54].复杂程序问题
re-ID,目前最流行的度量学习方法是KISSME[55]的基于Eq.2。在该方法中,一对(i,j)是否相似的判定用似然比检验来表示。采用成对差分(xi,xj =xi- xj),差分空间假设为高斯分布,均值为零。从[55]中可以看出,对数似然比检验可以很自然地推导出马氏距离度量,在实际应用中,对数据点采用主成分分析(PCA, principle component analysis )来消除维数相关性。
在公式2的基础上,引入了其他一些度量学习方法。在早期,一些经典的度量学习方法是以最近邻分类(nearest neighbor classfication)为目标的。Weinberger等人[56]提出了大边缘最近邻学习(LMNN,large margin nearest neighbor learning)方法,该方法为目标邻域(匹配的对)设置一个周长(perimeter),并惩罚入侵的邻域(冒名者)。该方法属于有监督的局部距离度量学习范畴[53]。为了避免在LMNN中遇到过拟合问题,Davis等人[57]提出了信息理论度量学习(information- theory metric learning, ITML)作为满足给定相似性约束和确保学习的度量接近初始距离函数之间的权衡(trade-off)。
近年来,Hirzer等人提出放宽正性约束,以更低的计算成本为矩阵M提供了一个充分的近似。Chen等人[38]在Mahalanobis距离的基础上增加了双线性相似性(bilinear similarity),从而可以对跨patch相似性进行建模。在[31]中,全局距离度量与局部自适应阈值规则耦合,局部自适应阈值规则还包含(xi,xj)的正交信息(orthogonal information)。在[59]中,Liao等人提出了正半定约束下的性能,并提出了正样本和负样本的权重不同。Yang等人[60]既考虑了图像对之间的差异,又考虑了图像对之间的共性,结果表明,不同图像对的协方差矩阵(covariance matrices)可以从相似图像对的协方差矩阵中推断出来,使得学习过程可扩展到大型数据集。
除了学习距离度量,还有一些作品关注于学习有区别的子空间(learning discriminative subspaces)。廖等人[20]提出学习具有交叉视图数据的低维子空间的投影w,其求解方法与线性判别分析(LDA)类似[61],
在这里插入图片描述
其中Sb和Sw分别为类间(between-class)和类内(within-class)分散矩阵。然后,利用KISSME在生成的子空间中学习距离函数。为了学习w, Zhang等人进一步利用空Foley-Sammon变换来学习一个判别零空间,该零空间满足类内零散点和类间正散点。为了降维,Pedagadi等人[39]将无监督PCA (principal component analysis,主成分分析)和监督局部Fisher判别分析(supervised local Fisher discriminative analysis,保留了局部邻域结构)相结合。在[28]中,提出了一对约束分量分析方法(PCCA),该方法学习线性映射函数,能够直接处理高维数据,而ITML和KISSME则需要先进行降维。熊等人在[62]中进一步提出了两种现有子空间投影方法的改进版本,即,规范化PCCA[28]和内核LFDA[39]。
除了使用Mahalanobis distance (Eq. 2)的方法外,还有一些使用其他学习工具,如支持向量机(SVM,support vector machine)或boost。proser等人提出学习一组弱秩向量,然后将它们组装成一个更强的秩向量。在[63]中,采用结构支持向量机将不同颜色描述符在决策层进行组合。在[43]中,Zhang等人学习了针对每个训练标识的特定SVM,并将每个测试图像映射到从其视觉特征推断出的权重向量。Gray和Tao[24]提出使用AdaBoost算法来选择并将许多不同类型的简单特征组合成一个单一的相似函数。

2.3 Deeply-learning Systems

自Krizhevsky等人以较大优势获得ILSVRC ’ 12以来,基于cnn的深度学习模型一直很受欢迎。reid使用深度学习的前两项工作是[15]、[16],如1.2节和图2所示。一般来说,社区中常用的CNN模型有两种。第一类是用于图像分类[14]和目标检测的分类模型[64]。 第二种是使用图像对(image pairs)[65]或三胞胎(triplets)[66]作为输入的暹罗模型(siamese model)。 reid深度学习的主要瓶颈是缺乏训练数据。大多数reid数据集仅为每个标识提供两个图像,例如VIPeR[24],因此目前大多数基于cnn的reid方法主要关注暹罗模型。在[15]中,一个输入图像被分割成三个重叠的水平部分,这些部分经过两个卷积层和一个完全连接的层,这个卷积层将它们融合在一起,并为这个图像输出一个向量。利用余弦距离(cosine distance)计算了两个输出向量的相似度。架构由Lietal设计的[16]的不同之处在于,它增加了一个patch匹配层,将两幅图像在不同水平条纹处的卷积响应相乘,这思想上与ACS[30]类似。后来,Ahmed等人[69]通过计算交叉输入邻域差分特征(cross-input neighborhood difference features)对siamese模型进行了改进,交叉输入邻域差分特征是将一幅输入图像的特征与另一幅图像相邻位置的特征进行比较。[16]使用这一结果计算相似纬度下的patch相似性,Ahmed等[69]使用减法。吴等等[70]使用更小尺寸的卷积滤波器(称为“PersonNet”)加深网络。在[71],Varioretal将长短时存储器(LSTM)模块合并到暹罗网络中。LSTMs对图像的各个部分进行连续处理,使空间连接扫描化,提高了对深层特征的识别能力。Varioretal[72]建议在每个卷积层之后插入一个门控函数,以便在图像通过网络传输时捕获有效的细微模式。该方法达到了 state-of-the-art 水平,但缺点也很明显。在将查询发送到网络之前,该查询必须与每个图片库图像进行配对——在大型数据集中,这是一个耗时低效的过程。与[72]类似,Liu等[73]提出在暹罗网络中集成基于软注意的模型,自适应地聚焦于输入图像对的重要局部;然而,这种方法也受到计算效率低的限制。虽然这些作品使用图像对,Cheng等[74]设计了一个以三幅图像为输入的三重损失函数。在第一个卷积层之后,每个图像分割出四个重叠的身体部分,并与FC层中的全局部分融合。Su等[75]提出了一种三阶段学习过程,包括使用独立数据集进行属性预测,以及在带有ID标签的数据集上训练属性三重损失函数。siamese模型的一个缺点是它没有充分利用reid注释。事实上,暹罗模式只需要考虑成对(或三重)标签。在reid中,判断图像对是否相似(属于相同的标识)是一个弱标签。另一个潜在有效的策略包括使用分类/标识模式,该模式充分利用了re-ID标签。在[76]中,分类网络采用来自多个数据集的训练标识共同构成训练集,并采用softmax损失。
结合每个FC神经元的影响评分和基于影响评分的区域引导dropout,学习的通用嵌入产生了具有竞争力的re-id精度。对于较大的数据集,如PRW和MARS,分类模型无需精心训练样本选择就能获得良好的分类性能[21] ,[77]。然而,在应用识别损失时,每个ID需要更多的训练实例来进行模型收敛。为便于比较,本调查提供了两种模型的一些基准结果。在表2中,我们对Market-1501数据集[44]实现了识别和验证模型。所有网络都使用默认的参数设置,并通过ImageNet[78]预训练模型进行微调。图像被调整到224×224,然后才被送入网络。初始学习率设置为0.001,每个epoch后降低0.1倍。训练是在36个epoch之后完成的。我们可以清楚地观察到,识别模型优于验证模型,residouble -50模型[68]与最近的结果相比,在Market-1501上产生了state-of-the-art 的reid准确性[71],[72],[75]。
在这里插入图片描述

2.4 Datasets and Evaluation

(1)Datasets
已经发布了大量用于基于图像的reid的数据集,表3总结了一些常用数据集。测试最多的基准是VIPeR。它包含632个身份,每个身份对应两个图像。10个随机的训练/测试分割用于稳定性能,每个分割在训练集和测试集中都有316个不同的恒等式。这些数据集反映了各种场景。例如,在地铁站采集网格数据集[84],在机场到达大厅采集iLIDS[83],在大学校园采集CUHK01[88]、CUHK02[89]、CUHK03[16]和Market-1501[44]。近年来,可以从几个方面看到进展。
在这里插入图片描述
首先,数据集规模正在增加。其中许多数据集的大小相对较小,特别是早期的数据集,但是最近的数据集,如CUHK03和Market-1501,要大一些。它们都有超过1000个id和超过10000个边界框,并且这两个数据集都为训练深度学习模型提供了大量的数据。尽管如此,我们必须承认,目前的数据量仍然远远不能令人满意。社区非常需要更大的数据集。
其次,边界框往往由行人检测器(如DPM[91]和ACF[92])生成,而不是手工绘制。在实际应用中,使用人工绘制画廊边界框是不可行的,因此必须使用检测器。这可能会导致边界框偏离理想的边界框。从[16]中可以看出,与手绘框相比,使用检测到的边界框通常会导致里德精度下降,这是由于检测错误(如校准错误)造成的。在[44]中,大量的错误检测结果(在后台)被包含在gallery中,这在使用检测器时是不可避免的。在[44]中进行的实验表明,当更多的干扰object被添加到图库中时,reid的准确性会下降。因此,研究具有实际缺陷的数据集,如错误检测和失调,对社区是有益的。
第三,在收集过程中使用更多的相机。例如,在Market-1501中,每个身份都可以被多达6台摄像机捕捉到。这种设计要求度量学习方法具有良好的泛化能力,而不是在特定的相机对之间进行仔细的调整。事实上,在一个有n个城市规模的相机网络中,相机对的数量是C2 n,???因此禁止从每个相机收集带注释的数据并训练C2 n距离度量。???有关这些数据集的更详细描述,请参考survey[5]和website1link.
(2)Evaluation Metrics
在评价re-ID算法时,通常使用累积匹配特征曲线(cmc,cumulative matching characteristics)。CMC表示查询标识出现在不同大小的候选列表中的概率。无论图库中有多少ground truth真值匹配,CMC计算中只计算第一个匹配。因此,从根本上说,CMC作为一种评价方法,只有当每个查询都存在一个ground truth时,才算准确。这种方法在实践中是可以接受的,当人们更关心返回排名前列的ground truth匹配时。
然而,为了研究的完整性,当gallery中存在多个基本事实时,郑等人[44]提出使用平均平均精度(mAP)进行评估。这样做的动机是,一个完美的reid系统应该能够将所有的真实匹配返回给用户。情况可能是,两个系统在发现第一个地面真相方面的能力相同,但检索回忆能力不同。在这种情况下,CMC没有足够的判别能力,而mAP有。因此,mAP与CMC一起用于Market-1501数据集,其中每个查询都有来自多个摄像机的多个基本事实。稍后,在[71]、[72]、[93]中,还报告了每个查询包含多个ground truth的数据集的mAP结果。
(3)Re-ID Accuracy Over the Years
在本节中,我们将在图3中总结多年来几个代表性数据集的re-ID准确性。给出的数据集有VIPeR[82]、CUHK01[88]、iLIDS[83]、PRID 450[90]、CUHK03[16]和market -1501[44]。我们大致将当前的方法分为两类,即,手工标识(hand-crafted),深度学习(deep learned)。对于每个数据集,都显示了在相应年份报告最高re-ID精度的代表性方法。从这些结果可以得出三个主要的见解。
首先,从这些年来的六个数据集中可以看到一个明显的性能改进趋势。在VIPeR、CUHK01、i-LIDS、PRID 450、CUHK03和Market-1501上,我们分别观察到性能提高了+51.9%、+56.7%、+35.0%、+42.6%、+57.2%和+31.62%。例如,在研究最多的数据集VIPeR[82]上,从2008年到2016年,代表性著作[13]、[24]、[30]、[32],[85]、[94]、[95]的rank-1准确率从2008年的12.0%提高到2015年的63.9%[94],提高了+51.9%。Market1501数据集自2015年发布以来,最先进的结果从44.42%[44]增加到76.04%[72],提高了31.62%。
其次,除了VIPeR,深度学习方法在剩下的5个数据集中产生了一种新的技术状态。在这5个数据集(CUHK01、i-LIDS、PRID 450、CUHK03和Market-1501)上,深度学习的性能优于手工制作的系统。在CUHK03和Market-1501这两个迄今为止最大的数据集上,我们观察到与手工方法的测试(同样广泛)相比,深度学习具有压倒性的优势[72],[76]。由于VIPeR相对较小,深度学习的优势无法得到充分的检验;相反,在这种情况下,手工编制hand-crafted的度量学习可能更有优势。考虑到图像分类和目标检测方面的情况,深度学习系统很有可能在未来几年继续主导reid社区。
第三,我们推测仍有很大的改进空间,特别是当更大的数据集即将发布时。例如,在Market-1501数据集上,在不使用多个查询的情况下,rank-1的最佳准确率为65.88% [72],mAP的准确率相当低(39.55%)。这表明,尽管在6个摄像机池中相对容易找到第一个真正匹配(rank-1精度),但定位难正样本并因此实现高召回率(mAP)并非易事。另一方面,尽管我们似乎能够在这些数据集上实现60%到70%的rank-1精度,但我们必须记住,这些数据集只占实际使用的很小一部分。事实上,除了[44],[96]中也有报道称,gallery大小增加10倍会导致rank-1准确度下降10倍,即使是表现最好的方法,rank-1的得分也会是个位数。因此,考虑到较低的mAP (reid recall)和当前数据集的小范围,我们对基于图像的reid的重大突破非常乐观。
两个数据集示例:
在这里插入图片描述

3 FUTURE: DETECTION, TRACKING AND PERSON RE-ID

虽然个人身份源于多摄像头拍摄,但它现在已经成为一个独立的研究课题。在本次调查中,我们认为re-ID是一个重要的未来方向,它将加入行人检测和跟踪作为一个场景,但在一个更独立的角色。具体来说,我们考虑了一个端到端的reid 系统,它以原始视频为输入,集成了行人检测和跟踪,以及重新识别。
直到最近,大多数reid作品都基于两个假设:首先,给出行人边界框的gallery;其次,边界框是手工绘制的,即,具有完善的检测质量。然而,在实践中,这两个假设并不成立。一方面,通道大小随探测器阈值的变化而变化。较低的阈值会产生更多的边界框(较大的图库、较高的召回率和较低的精度),反之亦然。当检测的查全率/查准率由于阈值的不同而发生变化时,re-ID的精度并不稳定。另一方面,当使用行人检测器时,检测错误通常与边界框一起存在,比如错误对齐、错误检测和错误警报。此外,当使用行人跟踪器时,跟踪错误可能会导致轨道内的异常帧,即,背景或不同身份的行人。因此行人检测和跟踪的质量可能会直接影响reID的准确率,这一点很少在reID社区提及。下面,我们将回顾一下这一方面相关。
在解决第二个问题的最初尝试中,有几个数据集,即分别介绍了CUHK03[16]、Market-1501[44]和MARS[21]。这些数据集并不假设有完美的检测/跟踪输出,而且离实际应用情况更近了一步。[16]表明,在cuhk03中,使用检测到的边界框的re-ID精度低于手工绘制的边界框。后来的研究也报道了这一观察结果[42],[127]。这些发现与实际应用密切相关。在MARS上,跟踪误差(图8)和探测误差被提出,但仍然不知道跟踪误差将如何影响re-ID的准确性。
在这里插入图片描述
尽管数据集通过引入检测/跟踪错误取得了进展,但它们并没有明确地评估检测/跟踪如何影响reid,这为如何在端到端reid系统中的大量现有工作中选择检测器/跟踪器提供了重要的见解。据我们所知,关于端到端person reid,最早是由Xu等人在2014年提出的[18]。他们使用术语“共性”(commonness)来描述图像边界框与行人的相似性,使用术语“惟一性”(uniqueness)来表示gallery库边界框与查询之间的相似性。在指数函数中,它们的乘积融合了共性和唯一性。该方法消除了虚假背景检测的影响。虽然Xu等人[18]考虑了检测对reid的影响,但其局限性在于缺乏全面的基准测试和对gallery动态问题的考虑。
2016年,Xiao等 [128][] 和Zheng等 [77][] 同时推出了基于大规模数据集的端到端reid系统。两幅作品均以原始视频帧和查询包围框作为输入(图5),其中一幅作品首先对原始帧进行行人检测,得到的包围框形成reid库。然后,利用经典的reid。这个过程在[18] [128] 中称为“person search”,不再局限于reid(图5(b)):同样注重检测模块(图5(a))。这个准则的一个非常重要的方面是,给定相同的一组reID特征,一个更好的行人检测器往往产生更高的重新识别精度。在[77]、[128]中,分别对野外人员重新识别(PRW)和大规模人员搜索(LSPS)数据集实现了广泛的基线,这一结论通常成立。另一个有趣的话题是行人检测是否有助于person reID。在[18]中,[77],检测置信度被纳入最终的re-ID评分中。在[128]中,与faster R-CNN模型相似的CNN模型中,行人检测和re-ID被联合考虑[129],而在[77]中,当在预训练的R-CNN模型上对CNN模型进行精调fined-tuned时,识别嵌入(IDE)显示出更好的性能[130]。这些方法提供了关于弱标记检测数据如何帮助提高re-ID精度的初步见解.
在这里插入图片描述
然而,在所谓的“端到端”系统[18],[77],[128]中,没有提到行人跟踪,我们也不知道任何现有的工作/数据集解决跟踪对reid的影响。这项工作将其视为将检测、跟踪和检索集成到一个框架中的“最终”目标,并评估每个模块对总体reid性能的影响。因此,该调查需要提供bounding box annotations注释的大型数据集用于这三个任务。

3.1 Future Issues

(1)System Performance Evaluation
正确的评估方法是一个关键的,有时也是棘手的话题。一般来说,没有单一的“正确”约定protocal,特别是对于尚未充分研究的端到端reid任务。端到端reid系统与当前基于所使用的特定检测器/跟踪器及其参数的大多数动态图库中reid研究不同。而且,在person re-ID场景中,如何评估检测/跟踪性能仍然是未知的。因此,本文从两个方面提出了系统评价的问题。
首先,在reid中使用有效的行人检测和跟踪评价指标是至关重要的。评估协议应该能够量化和排名探测器/跟踪器的性能,以一种现实的和无偏倚的方式和信息体现reID的准确性。例如,行人检测主要使用log-average miss rate (MR),它在[0.01,1]FPPI(每幅图像的假阳性)的精度范围内进行平均。一些人还使用平均精度(AP)遵循PASCAL VOC中的惯例[134]。Doll ’ ar等[135]认为,在汽车应用等特定任务中,对FPPI使用失检率比精确召回曲线更可取,因为可接受的FPPI可能有一个上限。相对于汽车行人检测的应用,人的真实身份识别的目的是找到一个不一定关心假阳性率的人。因此,本质上,我们可以利用 失误率(MR)和平均精度(AP) 来评估行人检测的reID。
AP/MR计算中的一个重要参数是相交于并集(IoU)得分。如果检测到的边界框的IoU得分与ground truth bounding box值大于阈值,则认为该边界框是正确的。通常阈值设置为0.5,然而Zhang等[136]研究了不同IoU分数下“完美单帧检测器”与自动检测器之间的差异。KITTI基准[137]要求汽车检测的IOU为0.7,行人为0.5。对于reID,这个问题可以提出proposals。关于它的一些线索仍然存在,如果我们深入研究[77]中得出的结论,我们应该注意到,使用较大的IOU分数(如0.7)比较低的IOU分数(如0.5)更好的评估标准。图6给出了PRW数据集上检测精度(AP)与reid精度(rank-1或mAP)之间的关系。在IoU = 0.7下,两项任务之间呈现出明显的线性关系,而在IoU = 0.5下则存在散点图。因此,检测器和识别器之间的相关性更符合较大的IOU。然而,它仍然远远不能令人满意。
考虑到bounding box 定位质量对re-ID精度的重要性,在评估检测器质量时研究IoU阈值,看看它是否符合re-ID精度是一个好idea。我们的直觉是,IoU越大,定位结果越好,但必须有一定的限制,因为当IoU越大,检测器性能的差异趋于减小[136]。探索[138]中提出的IoU平均查全率(AR,average recall)在0.5到1之间的使用情况,并绘制不同数量检测器阈值的AR,也是可行的。这样的评价指标同时考虑了召回和定位,我们推测,在行人检测召回和边界框质量至关重要的re-ID中,它可能具有特别大的信息量。
虽然目前至少有一些针对行人检测的评价方法,但是 如何评价 reID下的跟踪仍然是一个很大的未知数。在多个对象跟踪(MOT,multiple object tracking)基准[139],多个评价指标记录,包括多个对象跟踪精度(MOTP,multiple object tracking precision)[140],主要跟踪(MT)目标(轨迹被跟踪结果真实率至少为80%),假阳性(false positives)的总数, ID switches总数(IDS),轨迹碎片化总次数(Frag),每秒处理帧数(Hz),等等。可能有些度量指标的指示能力有限,比如处理速度,因为跟踪是离线的步骤。对于reid,我们认为跟踪精度是至关重要的,因为在轨迹片段tracklets中不希望出现异常图像,这会影响pooling的效率。我们还推测,80%可能不是一个最佳阈值评估MT在重新识别。正如[105]所述,在步行周期(within a walking cycle)内提取特征是一种很好的实践,因此生成较长的跟踪序列可能不会带来太多的reid改进。在未来,一旦发布了用于评估跟踪和re- id的数据集,一个紧迫的问题就是设计合适的度量来评估不同的跟踪器。
第二个问题是评价过程关系到整个系统的识别精度。与固定图库的传统reid不同,在端到端reid系统中,图库随着检测/跟踪阈值的变化而变化。一个更严格的阈值意味着更高的检测/跟踪信心,因此画廊更小,背景检测很少,反之亦然。此外,图库大小直接影响reid的准确性。让我们举一个极端的例子。当检测/跟踪阈值非常严格时,图库可以非常小,甚至有可能排除地面真实值匹配。在另一个极端,当检测/跟踪阈值设置为一个非常松散的值时,gallery会非常大,并且包含大量的背景检测,这可能会对re-ID产生负面影响,如[44]所示。因此,可以预见,过于严格或过于宽松的阈值会导致较差的图库,并且最好使用re-ID评估协议来反映随图库动态变化的re-ID精度。郑等人在[77]中绘制了每幅图像对应不同检测次数的rank-1精度和mAP。观察到曲线在达到峰值后先上升后下降。在PRW数据集中,峰值定位于每幅图像4-5次检测,可以作为每幅图像平均行人数量的估计。在[128]中采用了类似的协议,即,根据检测召回率绘rank-1匹配率,当recall= 70%时达到最大值。当召回率进一步增加时,错误检测的发生率将会降低重新识别的准确性。一些其他的想法可以探索,例如,绘制重新识别精度对FPPI(false positive per image)。请记住,gallery的大小取决于检测器阈值,其他新的评估指标,信息丰富,无偏倚,可以在未来设计。
我们还指出了端到端系统中的另一种reid评估协议。在实际应用中,当遇到一个查询边界框/视频序列时,虽然可以通过**(1)行人检测/跟踪在某一帧中定位身份并告诉其坐标**,但是系统**(2)只知道身份在哪个帧中重新出现**也是可以接受的。查询人员的具体位置可以通过人工查找,这是有效的。从本质上讲,确定被查询人出现的准确帧比“检测/跟踪+重新识别”任务相对容易,因为检测/跟踪错误可能不会产生很大的影响。在这个场景中reid的准确性应该高于标准的reid任务。此外,平均平均精度(MAP)可以使用检索的视频帧。由于这项任务不需要非常精确地定位人员,因此我们可以使用较松的检测器/建议或跟踪器来提高帧级的回忆。探测器/预测器可以学会在IoU限制宽松的情况下定位行人的粗糙区域,并更加注重匹配,即,从一个更大的边界框/时空区中找到一个特定的人。

3.2 The Infulence of Detector/Tracker on Re-ID

Person re-ID源自行人跟踪[9],如果确定多个摄像机的tracklets具有相同的身份,则将它们关联起来。本研究将re-ID作为跟踪系统的一部分,不评估定位/跟踪精度对re-ID精度的影响。然而,自reid独立以来,大多数研究都是针对手绘的图像边界框进行的,这是一种理想化的情况,很难实现。因此,在端到端reid系统中,理解检测/跟踪对reid的影响,提出检测/跟踪方法/数据可以帮助reid的方法是至关重要的。
首先,行人/跟踪误差确实会影响re-ID的准确性,但其内在机制和可行的解决方案仍然存在挑战。检测错误(图7)可能会导致行人走偏、尺度变化、部分缺失,最重要的是误报和漏检,影响reid性能,给社区[16]、[44]带来新的挑战[96]。
一些reid工作显式地考虑了检测/跟踪错误。在[29]中,郑等人提出融合局部-局部和全局-局部匹配,以解决部分reID存在严重闭塞或缺失部分的问题。在[18]中,Xu等人通过将GMM编码的描述符与先验分布匹配来计算“共性”得分。该分数可用于消除不包含或提供人体良好定位的假阳性。同样的,郑等[77]提出将检测器置信度(平方根后)集成到re-ID相似度评分中,根据该评分对gallery的边界框进行排序。这些工作解决了发生后的检测错误。然而,有可能在早期阶段避免检测/跟踪错误。例如,在Xiao等[128]设计的网络中,在fast R-CNN[141]子模块中增加了定位损失。它规范本地化质量,这是一个有效的reid系统的关键。
未来的调查需要揭示人的真实身份对检测/跟踪质量的依赖关系。由于开发无错误的检测器/跟踪器的想法过于理想化,我们主张研究如何将检测置信集成到re-ID匹配分数中,即、如何通过有效地识别异常值来纠正错误,以及如何训练不完全依赖于检测到的边界框的上下文模型。例如,使用聚类算法过滤出tracklet跟踪序列中的不一致帧可以有效地净化跟踪序列。在另一个例子中,检测到的边界框可以被放大,以包含可能缺失的身体部分,并学习有区别的视觉特征,从而使用或丢弃丰富的上下文信息。
其次,我们应该意识到,检测和跟踪,是否适当的设计,可能有助于重新识别。在[77]中,在R-CNN模型上进行微调的IDE网络[64]被证明比直接在ImageNet预训练模型上进行微调的IDE网络更有效。这说明了在行人检测中使用过量的标记数据的重要性,即、有行人ID标注和假阳性检测。在[128]中,端到端网络集成进行了背景检测,这一过程提高了学习嵌入的识别能力。将检测得分整合到re-ID相似性[18]中[77],也可以看作是检测帮助reID的另一种选择。
行人检测/跟踪可以帮助重新识别或反向识别,这似乎不是很直观,但如果我们考虑一般图像分类和细粒度分类的类比,我们可能会想到一些线索。从实例中可以看出,在细粒度数据集上对ImageNet预训练 CNN模型进行微调是加快收敛速度和提高细粒度识别精度的有效方法。通过将reid损失反向传播到(faste)RCNN部分,联合训练行人检测和reid模型也是一个好主意。能够区分不同的身份可能有助于区分背景中的行人。后者也可能有助于前者。
可以探索的一个想法是使用无监督跟踪数据。在视频中,跟踪行人并不难,但跟踪错误是不可避免的。面部识别、颜色和非背景信息是提高跟踪性能的有用工具,如《哈利波特》中的活点地图[142]。在一个跟踪序列中,一个人的外观可能会发生一定程度的变化,但可以预期,大多数边界框都是同一个人的。在这个场景中,每个tracklet代表一个人,其中包含许多噪声但大致可用的训练样本。因此,我们可以利用racking结果来训练行人验证/识别模型,从而减轻对大规模管理数据的依赖。另一个很有前途的想法是,值得尝试使用自动编码器[143]或生成对抗网(GAN)[144]来使用检测/跟踪数据对CNN模型进行预训练。使用这种无监督网络直接学习人员描述符,以帮助解决人员重新标识中的数据问题,这也很有趣。

4 Future:Person Re-ID in Very Large Galleries

近年来,reid社区的数据规模显著增加。,从VIPeR[82]和iLIDS[83]中的数百幅图库图像,到PRW[77]和LSPS[128]中超过100k的图像,形成了深度学习方法的优势。然而,很明显,目前的数据集离实际规模还很远。假设region-scale监测网络中100个摄像头,如果每秒使用一帧视频进行行人检测,每帧平均产生10个边界框,那么系统运行12小时将产生3600×12×1×10×100 = 43.2×106个边界框。但据我们所知,此前还没有任何作品报道过在如此大的gallery中reid表现。似乎最大的gallery在500K的[44],有证据表明,与Market-1501相比,拥有19k的gallery的mAP 下降了7%以上 。此外,在[44]中,采用近似最近邻搜索[145]实现快速检索,但代价是降低了检索精度。
从研究和应用的角度来看,大型图库中的人员重新标识reid应该是未来的一个重要方向。应该努力提高准确性和效率问题。
一方面,对描述符(discriptor)和距离度量(distance metric) 的深入和大规模学习更为重要 。这与目前的研究[71]、[73]、[75]、[81]不谋而合。在大规模的图像识别之后[78],人的真实身份将向大规模的评价发展。虽然目前的方法在非常有限的时间窗内解决了一组或多组相机之间的reid问题,但是对于相机网络在很长一段时间内的鲁棒性还没有得到很好的考虑。在[36],[146]中,相机网络内的re-ID一致性是通过两两配对的匹配精度来共同优化的,但是测试数据集(WARD[87]和RAiD[36])只有3和4个相机,并且小于100个身份。在一个有n个摄像机的网络中,摄像机对的数目是O(n2)。考虑到记录时间长且缺少带注释的数据,通常禁止以成对的方式训练距离度量或CNN描述符。因此,训练一个适应不同光照条件和摄像机位置的全局re-ID模型是当务之急。为了实现这一目标,一个选项是设计无监督描述符[44],[97],其目的是发现视觉上相似的人,并将视觉上不同的人视为虚假匹配。但无监督的方法可能容易发生光照变化。
另一方面,在如此大规模的环境中,效率是另一个重要的问题。虽然计算时间几乎可以忽略的小数据集[82],[83],在我们的实验中,我们使用MATLAB 2014在一台Intel Xeon E5-2687w v3(10核)10 gb内存3.1GHz的服务器上,计算一个100-dim浮点向量与1000万个100-dim向量之间的距离需要8.50秒。
如果我们使用从CaffeNet[14]和c++编程,使用的时间急剧增加到60.7秒,包括距离计算的33.2秒和从磁盘加载数据的26.8秒。很明显,查询时间急剧增加,根据特征的维数和图片库gallery的大小,这是不可取的实际使用。据我们所知,以往的person re-ID作品很少关注效率问题,因此缺乏有效的解决方案,但幸运的是,我们可以求助于图像检索社区来寻找答案,本次调查提供了两个可能的方向。
Inverted index-based (反向索引)
反向索引是基于Bag-of-Words(BoW)的检索方法的一个de facto的数据结构,[147],[148]。根据局部描述符的量化结果,反向索引有k个条目,其中k表示码本大小。因此,索引结构有k个条目,每个条目都附加到一个倒排列表,其中索引了本地描述符。基线倒置指数的结构如图9所示。post存储索引描述符的图像ID和词频(term frequency, TF),在一系列的工作中,还可以存储许多其他元数据,如二进制签名[148]、特征坐标[149]等。关于实例检索中倒排索引的基本知识和最新进展,请参考最近的一项调查[19]。
在这里插入图片描述
在person re-ID中,使用局部描述符是比较流行的[30]、[34]、[44]。颜色和纹理特征通常从局部patch补丁中提取。虽然之前的一些作品使用了复杂的匹配算法[30],但更倾向于使用大型gallery下的倒索引来加速过程。通常需要一个码本将一个局部描述符量化为visual words(可视单词),由于局部描述符是高维的,因此需要一个大型码本来减少量化错误。在这种情况下,反向索引就可以使用了,这在很大程度上节省了内存成本,如果使用得当,与没有量化的情况相比,反向索引的精度大致相同。
Hashing-based(哈希算法)
哈希算法是一种被广泛研究的近似最近邻搜索算法,其目的是在库容量较大或距离计算开销较大的情况下,降低精确最近邻搜索的代价。在里程碑式的工作光谱哈希之后,学习哈希在社区中很流行[150]。它是指学习哈希函数y = h(x),将一个向量x映射到一个紧凑的y,目的是在保持搜索过程效率的同时,在秩表的高秩中找到真正的最近邻。一些经典的哈希学习方法包括乘积量化(PQ)[117]、迭代量化(ITQ)[151]等。两种方法训练效率高,检索精度高。它们不需要带标签的数据,因此适用于可能无法获得大量培训数据的reid任务。
监督哈希的另一个应用包括图像检索[152]、[153]、[154]、[155],这也是本节的兴趣所在。哈希函数是通过一个深度学习网络端到端学习的,该网络输出一个给定输入图像的二进制向量。这一行的工作集中在几个图像分类数据集,如CIFAR-10[156]和NUS-WIDE[157],以便利用一般实例检索数据集[22]中缺乏的训练数据,[148]。在person reid中,应用程序场景非常适合用于图像检索的深度哈希。在大型gallery中,高效但准确的高效而准确的哈希方法是非常必要的,这是一个在reid中探索较少的方向。如表1所示,在reid数据集中提供了训练集,测试过程是一个标准的检索任务,因此,鉴于数据集[16]、[44]的规模越来越大,当前的监督哈希技术很容易在reid中采用。
我们发现的唯一相关工作是[158],在一个triplet-loss(三元组损失)加入正则化的CNN网络中学习哈希函数能加强邻接一致性。该方法是在CUHK03数据集上测试的,每个测试分割包含100个身份,因此在这个意义上,仍然缺乏对非常大的库的性能评估。因此,本调查需要非常大的reid数据集,这些数据集将评估reid方法和可伸缩算法的可伸缩性,特别是那些使用hash散列代码将此任务进一步推到实际应用程序中的算法。

5 other important yet under-developed open issues

5.1 battle against data volumn

注释大型数据集一直是视觉社区关注的焦点。这个问题在人re-ID更具挑战性,因为除了画一个边界框的一个行人,必须分配一个ID, ID分配并不简单,因为行人可能在第一次出现后很长时间内重新进入视野范围(FOV)或进入另一个观察相机。
这使得协作注释变得困难,因为两个协作者在带注释的id上进行通信的成本很高。这些困难部分解释为什么当前数据集通常有一个非常有限的图片为每个ID。过去的两年里目睹了释放几个大型的数据集,例如,Market-1501 [44],PRW[77],LSPS[128],和MARS[21],但他们仍远未满足实际应用的看法。在这项调查中,我们认为两种替代策略可以帮助绕过数据问题。
首先,如何使用来自跟踪和检测数据集的注释仍未得到充分研究。与reID相比,当一个人重新进入FOV时,跟踪和检测注释不需要ID分配,大部分工作都花在包围框绘图上。在[77]中,研究表明在R-CNN阶段增加更多的行人和背景训练数据有利于IDE描述符的后续训练。在[50]中,[75],使用来自独立数据集的属性注释来表示re-ID图像。由于属性可以通过工作人员之间的协作进行注释,并且具有良好的泛化能力,所以它们也是替代缺少re-ID数据的好方法。因此,当缺乏培训数据时,外部资源对于培训re-ID系统是很有价值的。
除了第3.2.2节提到的训练前/无监督策略外,一种新的解决方案是从未标记的数据中检索难否定,这些数据在度量学习/CNN训练中可以被视为“true positive”。这种策略已经在对象分类中得到了评估,其中有一小部分标签在训练前受到干扰[159]。它可以有效地扩大训练集,同时降低模型过拟合的风险。我们的初步实验表明,这个方向在基线上产生了不错的改进。
第二种策略是转移学习,将训练好的模型从源转移到目标领域。以前,监督学习需要大量的标记数据,这限制了reid系统扩展到其他摄像机。在[160]中,提出了一种无监督主题模型,用于发现用于re-ID匹配的显著图像块,同时去除背景聚类。在[161]中,提出了一种弱监督方法,该方法需要从其他reid数据集中获取完整的注释,并在目标场景中捕获一些样本。在[162]、[163]中,提出了目标数据集无标记的无监督转移学习。Ma等[162]采用跨域的支持向量机排序,而Pengetal采用的是跨域的支持向量机排序。[163]将迁移问题表示为字典学习任务,它学习共享不变的潜在变量,并且偏向于目标数据集。这些方法表明,从源数据中学习一个公平的reID模型是可行的,并且有利于从无监督数据中挖掘判别线索。将CNN模型转移到其他reid数据集可能更加困难,因为深层模型非常适合源。Xiao等[76]收集了大量的源reid数据集,并联合训练了目标数据集的识别模型。根据我们的经验,使用现成的度量学习方法[20]、[55]也可以在一定程度上纠正迁移效果,但是对于深度学习的模型来说,无监督迁移学习仍然是一个有待解决的问题。

5.2 Re-ranking Re-ID Result

reid过程(图5(b))可以看作是一个检索任务,其中重新排序是提高检索精度的重要步骤。它是对初始排序结果进行重新排序,从中可以发现重新排序的知识。关于搜索重新排序方法的详细调查,请读者参考[164]。
关于这一主题已有一些研究。重新排序可以在循环中由人工执行,也可以完全自动执行。当涉及到在线人工标记时,Liu等人[165]提出了后秩优化(post-rank optimisation, POP)方法,该方法允许用户从初始秩列表中提供一个简单的否定,以及一些可选的硬否定。稀疏的人工反馈使查询人员能够实时自动地选择特征。在改进中,Wang等[96]设计了人工验证增量学习(human verification incremental learning, HVIL)模型,该模型不需要任何预先标记的训练数据,而是从人工反馈中累积学习,提供实例模型更新。许多增量学习的HVIL模型被合并到一个集成模型中,以便在不再提供人类反馈时使用。类似地,Martinel等人[166]建议为查询查找最相关的图片库图像,并将其发送给human labeler,最后使用标签更新re-ID模型。在一些工作中也研究了自动重路由方法。郑等[167]提出了一种查询自适应融合方法来结合多个reid系统的rank结果。具体来说,使用了初始分数曲线的形状,并认为该曲线表现为“L”形,具有良好的特征。在[95]中,各种指标都是基于CMC曲线的直接优化进行综合的。Garc´ıa等。[94]分析无监督判别上下文信息在排名列表中。这进一步结合了线下学习的排名方法。冷锋等[168]利用互近邻的思想[169]对基于初始秩表的离线步骤中构建图像关系进行细化。
Re-rank重新排序仍然是person reid中的一个开放方向,在实例检索中得到了广泛的研究。应用程序场景可以描述如下。当搜索一个感兴趣的人,很可能它的图像在某些相机下很难找到,因为密集的图像变化。但我们也许能在一些更接近hard positive硬阳性的摄像机下找到真正的匹配。因此,通过这种方式,一旦简单的阳性结果返回,就可以找到硬阳性结果。实例检索中的重排序方法可以很容易地采用person reid[44],[169],[170],[171]。由于培训数据在reid中(表1),因此可以设计基于训练分布的重新排序方法。例如,在进行k-NN重新排序时[170],可以根据得分从训练集中确定返回结果的有效性。由于reid主要针对行人,因此可以专门设计重新排序的方法。例如,在获得初始排名列表后,可以选择排名前几位的图像的子集,并检索包含这些图像的视频帧。在不增加计算量的前提下,通过代价高昂的滑动窗法找到最佳定位,从而避免了探测器失配的影响。

5.3 Open-World Person Re-ID

大多数现有的reid作品都可以看作是一个标识任务(Eq. 1)。假设图库中存在查询标识,任务的目的是确定查询的ID。相比之下,开放世界的reid系统研究的是人员验证问题。也就是说,基于识别任务,开放世界问题为等式1增加了另一个条件,
在这里插入图片描述
其中h是阈值,在此阈值之上,我们可以断言查询q属于identity i;否则,q被确定为一个不包含在图库中的异常值标识,尽管i在标识过程中是第一个被排序的标识.
在文献中,开放世界的人的身份识别还处于起步阶段,有几篇文章提出了帮助定义这一任务。在[172]中,郑等人设计了一个由多个已知身份的观察列表(gallery)和包括目标和非目标在内的多个探针组成的系统。他们的工作目标是实现高真实目标识别率(TTR)和低虚假目标识别率(FTR),即计算被验证为目标标识的查询数对查询总数的比率。廖等人在[173]中将开放世界reid划分为两个子任务,即、检测和识别;前者决定图库中是否存在探测标识,而后者为接受的探测分配一个ID。提出了**检测识别率(DIR,detection and identification rate)误接受率(FAR,false accept rate)**两种不同的评价指标,并在此基础上绘制了接收机工作特性曲线(ROC,receiver operating characteristic)。
开放世界的reid仍然是一个具有挑战性的任务,低假接受率下的低识别率证明了这一点,如[172],[173]。挑战主要在于两个方面,即,检测与识别,两者都局限于标准re-ID任务中匹配精度不理想的研究热点。如[173]所示,100% FAR对应于标准闭集reID,其精度受当前技术水平的限制;较低的远值伴随着较低的reid精度,这是因为真实匹配的召回率较低。因此,从技术的角度来看,关键的目标是提高匹配精度,在此基础上可以设计概率模型用于新颖检测(验证)方法。此外,在关注re-ID的准确性时,open-world reID也应该考虑gallery的 动态性 [174]。在一个动态系统中,如果一个新的标识被确定不属于任何现有的gallery标识,那么它将被添加到“观察列表”中,反之亦然。动态注册新标识可以自动构建数据库,并使用预组织的图库简化重新id过程。

6 concluding remarks

在最古老的故事中所预言的reid,在现代科学界引起了广泛的兴趣。本文对人的再识别问题进行了研究。首先,简要介绍了person reid的发展历史,描述了它与图像分类和实例检索的异同。然后对现有的基于图像和视频的方法进行了综述,将其分为手工制作和深度学习两大类。由于介于图像分类和实例检索之间,人们一直未能实现准确有效的应用。因此,与以往的调查不同,本文更侧重于开发不足但关键的未来可能性,如集成行人检测和跟踪的端到端reid系统,以及超大图库gallery中的人员reid,我们认为这是迈向实用系统的必要步骤。我们还强调了一些可能会引起社会进一步关注的重要问题。它们包括解决数据量问题、重新id排序方法和开放的reid系统。综上所述,识别性特征学习、检测器/跟踪优化和高效的数据结构的集成将成为一个成功的人员再识别系统。

[1] https://www.zhihu.com/question/46943328/answer/139931140

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Deep person re-identification is the task of recognizing a person across different camera views in a surveillance system. It is a challenging problem due to variations in lighting, pose, and occlusion. To address this problem, researchers have proposed various deep learning models that can learn discriminative features for person re-identification. However, achieving state-of-the-art performance often requires carefully designed training strategies and model architectures. One approach to improving the performance of deep person re-identification is to use a "bag of tricks" consisting of various techniques that have been shown to be effective in other computer vision tasks. These techniques include data augmentation, label smoothing, mixup, warm-up learning rates, and more. By combining these techniques, researchers have been able to achieve significant improvements in re-identification accuracy. In addition to using a bag of tricks, it is also important to establish a strong baseline for deep person re-identification. A strong baseline provides a foundation for future research and enables fair comparisons between different methods. A typical baseline for re-identification consists of a deep convolutional neural network (CNN) trained on a large-scale dataset such as Market-1501 or DukeMTMC-reID. The baseline should also include appropriate data preprocessing, such as resizing and normalization, and evaluation metrics, such as mean average precision (mAP) and cumulative matching characteristic (CMC) curves. Overall, combining a bag of tricks with a strong baseline can lead to significant improvements in deep person re-identification performance. This can have important practical applications in surveillance systems, where accurate person recognition is essential for ensuring public safety.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值