A Pose-Sensitive Embedding for Person Re-Identification with Expanded Cross Neighborhood Re-Ranking


具有扩展的跨邻域重新排列的行人重新识别的姿势敏感嵌入

Abstract

人员重新识别是一项具有挑战性的检索任务,需要在不重叠的摄像机视图中匹配人员获取的图像。在本文中,我们提出了一种有效的方法,该方法结合了人的精细和粗略姿势信息 (incorporates both the fine and coarse pose information)以学习判别性嵌入。与最近对身体部位建模或基于这些部位进行校正的方向相反,我们表明,将获取的摄像机视图和/或检测到的关节位置相当简单地包含到卷积神经网络中有助于学习非常有效的表示。为了提高检索性能,基于计算距离的重新排序技术最近受到了广泛关注。我们提出了一种新的无监督自动重排框架(unsupervised and automatic re-ranking framework),该框架可实现最新的重排性能。我们表明,与当前最新的重新排名方法相比,我们的方法不需要为每个图像对计算新的排名列表(例如,基于对等邻居),并且通过使用简单的直接排名列表可以很好地执行基于比较,甚至只是使用图像之间已经计算出的欧几里德距离。我们证明,我们学到的表示方法和重新排序方法都可以在许多具有挑战性的监视图像和视频数据集上达到最新的性能。

1. Introduction

非重叠相机视图中的人重新识别(re-id)带来了一个困难的匹配问题。以前的大多数解决方案都尝试通过应用直接分类损失或使用度量学习损失来学习使用卷积神经网络(CNN)的人员的整体外观。为了更好地了解局部统计信息,已将相同的方式应用于图像区域,例如通过使用水平条纹或网格[19,4]。由于在一个人的不同视角和姿势之间进行匹配所固有的挑战,因此图像的局部区域之间没有隐式的对应关系(见图1)。这种对应关系可以通过明确地使用全身姿势信息进行对齐[32]或通过匹配相应的检测到的身体部位[41、42]来局部建立。通过合并身体姿势或身体部位信息来使用此本地或全局人员描述可以极大地有益于人员识别。
Figure1
在这项工作中,我们表明,结合人的粗略姿势(即,相对于摄像机的已捕获视图)或精细的身体姿势(即,关节位置)的简单提示就足以学习具有非常区分性的表示,并且借助简单的分类损失。我们提出了一个引人入胜的设计选择,以结合这些提示,并显示出它在性能上的优势,优于大型且具有挑战性的监视基准的最新方法。我们证明,在标准的基础CNN体系结构上学习和组合视图特定的特征映射图可显着改善re-id嵌入。类似地,将身体关节位置并入作为附加输入通道有助于提高re-id准确性。

为了改善人员检索,在计算初始距离之后,重新排序步骤通常可以大幅度提高排名质量。近年来,重新排名重新引起了人们的兴趣[23,9,15,37,48]。重新排序问题被公式化为重新估计探针图像和画廊图像之间的距离,以便将更正确的结果排在返回列表的顶部。在最近的提议中,这通常是通过利用所讨论的探针图像和画廊图像的前k个最近邻居的列表的相似性来实现的。在最新的重新排序方法中,经常基于公共或互惠邻居对每个图像对重新计算这些邻域列表[36,1,48]。这使得在计算上要求重新计算这些变化的长度列表之间的距离。

这项工作的第二个贡献是一种新的重新排序方法,它引入了扩展的跨邻域距离的概念。该方法汇总了探针和图库图像的近邻的距离,其中距离可以简单地是直接欧几里德距离或基于等级列表的距离。我们显示,在这种基于直接获得的排名列表的重新排名的更通用框架内,简单排名列表比较可实现最新的重新排名性能,而无需重新计算新的排名列表。

总而言之,我们的贡献有三点:1)我们提出了一种新的CNN嵌入方法,其中包含了粗粒度和细粒度的人的姿势信息。 2)我们提出了一种新的无监督自动重新排名方法,该方法比以前的方法具有更大的重新排名改进。 3)我们对姿势敏感的人re-id模型和我们的重新排名方法在四个具有挑战性的数据集上设定了新的技术水平。我们还展示了我们的方法具有非常大的画廊规模的可扩展性,以及在完整摄像机图像中进行人物搜索的性能。

2.Related Work

近年来,通过依赖于通过CNN学习的特征嵌入的方法,已经获得了许多最新的re-id结果[41,10,40,20]。我们将对相关方法的讨论集中在那些方法,其中包括一定程度的姿势信息以及重新排序方法。

使用姿势重新识别(Re-Id using Pose) 一个人的身体姿势是成功重新识别的重要提示。 Farenza等人流行的SDALF功能。 [8]使用取决于身体姿势的两个轴来得出具有姿势不变性的特征描述。 Cho等。 [6]定义四个视角(前,左,右,后),并学习相应的匹配权重以强调同一视角人物图像的匹配。在[5]中首先使用了基于图片结构的更细粒度的姿势表示,着重于各个身体部位之间的匹配。最近,深度学习架构在re-id上下文中的成功导致了多项工作,这些工作将姿势信息包含在基于CNN的匹配中。在[43] Zheng等人中。提出使用基于CNN的外部姿势估计器基于人的姿势对人的图像进行归一化。然后将原始图像和标准化图像用于训练单个深度re-id嵌入。 Su等人描述了类似的方法,在[32]中。在这里,子网首先估算一个姿势图,然后将其用于裁剪局部身体部位。然后学习并融合局部和全局人员表示。姿势变化也可以通过通过检测框架[41]显式检测身体部位,依靠视觉注意力图[25]或身体部位特定注意力建模[42]来解决。

与我们提出的方法相反,这些工作主要仅依赖于细粒度的姿势信息。此外,这些方法要么通过显式标准化其输入图像,要么通过显式建模零件局部化并在其体系结构中进行匹配来包括姿势信息。与此相反,我们的方法依赖于由姿态估计器生成的置信度图,该置信度图作为附加通道添加到输入图像中。这在我们的CNN的学习过程中提供了最大程度的灵活性,并将其留给网络以了解哪些身体部位相关且可靠,从而可以重新识别。除了这些细粒度的姿势信息之外,我们还表明,更粗略的姿势提示变得更加重要,可以有效地用于提高re-id性能。

重新排名(Re-Ranking) 近年来,重新排名技术在reid人领域越来越受到关注。 Shen等人[30]使用k最近邻(k-NN)生成新的排名列表,并基于这些列表重新计算距离。 Garcia等。 [9]提议共同学习排名列表中的上下文和内容信息,以移除顶部邻居中的候选者,并提高人员身份的性能。 [15]将其扩展为使用从内容和上下文相似度融合中获得的新相似度来修订初始排名列表。

Li等,[18]首先提出使用每个图像的公共最近邻居的相对信息来改善重新排序。 Ye等。 [36]将全局和局部特征的最接近的最近邻组合在一起作为新查询,并通过将它们汇总到新的排名列表中来修改初始排名列表。使用来自不同基线方法的邻居的相似性和相异性线索[37]提出了一种排序聚合算法来改善人的身份。与普通邻居相反,Jegou等人。 [14]使用互惠邻居(即以k邻域的方式来往的普通邻居)并建议计算上下文不相似度(CDM)。 [24]正式使用k个倒数邻居来计算排名列表。最新的最新重新排序方法是基于使用广义Jaccard距离来计算这些排名列表比较的。为了克服计算可变长度列表的交集和并集的关联复杂性,稀疏上下文激活(SCA)[1]将邻域集编码为稀疏向量,然后计算距离。为了减少原始排名列表中的误报和噪声,通过基于互惠邻居[14] [24][48]形成新的排名列表,可以包含更多上下文。 Zhong等[48]使用k互惠列表,并使用SCA编码来计算Jaccard距离。然后,他们建议将此距离与原始距离融合,以获得最终的排名。请注意,虽然基于互惠列表的比较提供了当前最佳的重新排名分数,但它需要为每个图像对重新计算互惠排名列表的额外复杂性。

与常见邻居或互惠邻居相比,根据这些邻居或邻居生成新的等级列表,我们提出了扩展邻居的概念,并在一对图像中聚集它们的交叉距离。 我们表明,这将导致更有效的重新排名框架,而无需为每个图像对重新计算新的排名列表。
在这里插入图片描述

3. Pose-Sensitive Embedding

人对照相机的姿势和方向会极大地影响图像的视觉外观。 因此,将这些信息明确地包含在re-id模型的学习过程中通常可以提高结果的准确性。 以前的工作依赖于细粒度的姿势信息(例如,联合关键点)或粗略的信息(例如,摄像机的方向)。 在本节中,我们描述了两种将两种粒度级别都包括在姿势敏感嵌入中的新方法。 两种方法可以同时并入同一基线CNN体系结构中,并且我们的实验表明,将两者结合使用比单独使用其中一种方法具有更高的准确性。 图2概述了我们的CNN架构以及两种姿势信息。

3.1. View Information

我们将人对相机的方位的量化[“前”,“后”,“侧”]用作粗略姿势信息。由于此信息取决于相机以及人,因此在其余工作中我们将其称为视图信息(view information)。

我们将视图信息包含在re-id嵌入中是基于我们先前关于语义属性识别的工作[27]。添加了三元视图分类器作为我们的主要re-id CNN的分支。然后,通过复制现有图层,将主CNN的尾部分为三个等效单元。视图分类器的三个视图预测得分用于加权这些单元中每个单元的输出。这可以调节流过单元的梯度,例如对于具有强“前”预测的训练样本,主要是由前权重加权的单位将有助于最终嵌入,因此对于当前训练样本,只有该单位会收到强梯度更新。此过程允许每个单元学习专用于三个视图之一的功能图。重要的是,与[27]相反,我们不对最终嵌入或预测矢量进行加权和融合,而是将权重应用于完整特征图,然后将其组合到最终嵌入中。这实现了更鲁棒的表示。

我们通常不能假定要在其上进行嵌入训练的re-id数据集上具有可用的视图注释。因此,我们在提供此类注释的单独RAP [17]行人数据集上预训练了相应的视图分类器。然后,我们将分类器直接转移到我们的re-id模型。可以在视图预测器和re-id网络之间共享低级功能(即早期层),以降低模型的复杂性。

在我们的默认ResNet-50架构中,在第三维降维步骤后(即在特征图尺寸为28×28×256处),视图预测器分支与主网络分离。然后,我们应用步长为2、2和5的三个连续卷积,以进一步减小尺寸(减小为1×1×1024)。生成的特征向量用于通过三向softmax预测视图。作为视图单元(view unit),我们使用ResNet Block-4的三个副本。将这些单元的7×7×2048维融合输出合并并馈送到一个完全连接的层,该层产生我们的1536维嵌入。

3.2. Full Body Pose

为了精确表示人的姿势,我们使用14个主体关节关键点的位置。为了获得这些信息,我们使用现成的DeeperCut [12]模型。与之前将姿势信息用于re-id相比,我们不使用此信息来显式标准化输入图像。相反,我们通过为14个关键点中的每个关键点添加一个附加的输入通道,将信息包括在培训过程中。这些渠道可用来引导CNN的注意力,并帮助他们了解如何将身体关节信息最好地应用于最终嵌入中。为了进一步增加这种灵活性,我们不依赖DeeperCut方法的最终关键点决策,而是为re-id CNN提供每个关键点的完整置信度图。这样可以防止基于硬关键点决策的任何错误输入,并使我们的模型有机会补偿或至少识别不可靠的姿势信息。

3.3.Training Details

我们使用针对ImageNet分类进行预训练的权重初始化所有CNN。为了用视图信息训练模型(第3.1节),我们首先对RAP数据集上的视图预测器分支进行微调[17]。接下来,我们仅训练目标re-id数据集上的视图单元和最终人员身份分类层。在此阶段,固定视图单元之前的视图预测器和所有图层的权重。这允许随机初始化的视图单元和最终图层适应早期图层的现有权重。

训练包含全身姿势信息的嵌入时(第3.2节),由于增加了14个关键点通道,因此ImageNet的权重与我们输入的大小不匹配。为了使网络适应17个通道的输入,我们通过仅对第一层(图2中的第0层)和最终人员身份分类层进行微调来开始训练,这两个层都是随机初始化的。网络的其余部分保持固定。一旦这两层适应了网络的其余部分(即观察到收敛),我们将对整个网络进行微调。

对于我们最终的姿势敏感嵌入(PSE),我们将两种姿势信息组合到一个网络中,如图2所示。我们使用上一部分中所述的全身姿势模型初始化训练,然后在其上添加视图预测器(view predictor)。可以使用姿势图在RAP数据集上微调视图预测器,并且可以从其他全身姿势信息中受益。然后如上所述对目标re-id数据集执行网络re-id元素的进一步微调。

对于我们所有的CNN嵌入,我们采用相同的训练协议。输入图像被标准化为按通道的零均值和1的标准偏差。通过将图像调整为105%的宽度和110%的高度并将图像随机裁剪为训练样本以及随机进行水平翻转来执行数据增强(我们不区分左右视图的主要原因)。使用Adam优化器在推荐参数下进行训练,初始学习率为0.0001,每个时期的衰减为0.96。

4. Expanded Cross Neighborhood Distance based Re-Ranking

在本节中,我们介绍扩展跨邻域(ECN)距离的概念,它可以在不严格要求进行排名列表比较的情况下,极大地提高性能。 我们表明,对于一个图像对,仅累加每个图像的直接两级邻居与另一个图像的距离会导致有希望的重新排名。 在这种基于跨邻域的距离框架内,潜在的累积距离可以仅仅是原始的欧几里得距离或重新计算的基于排名列表的距离。 我们还表明,在此框架内,对初始获得的排名列表使用简单的列表比较措施可以达到最新的排名性能。 我们的建议是全自动的,不受监督,可以很好地工作,而无需计算新的排名列表。
形式上,给定一个探测图像p和一个画廊集G,其中有B幅图像 G = { g i ∣ i = 1 、 2 , ⋅ ⋅ ⋅ , B } G = \{g_{i} | i = 1、2,···,B\} G={gii=12B},则 p p p与每个图库 g i g_{i} gi之间的欧式距离为 ∣ ∣ p − g i ∣ ∣ 2 2 ||p-g_{i}||_{2}^2 pgi22。 计算画廊和探针集中所有图像之间的成对距离,然后通过以递增顺序对距离进行排序来获得每个图像的初始排名 L ( p , G ) = { g 1 o , . . . , g B o } 。 \mathcal{L}(p,G)= \{g^o_{1},...,g^o_{B}\}。 LpG={g1o...gBo}

给定这样的初始序列表L的所有图像在画廊和探针集中,我们定义扩展的邻居探针p作为多集 N ( p , M ) N(p,M) N(pM),这样:
在这里插入图片描述
其中 N ( p , t ) N(p,t) N(pt)探针p的顶t近邻 N ( t , q ) N(t,q) N(tq)包含集合 N ( p , t ) N(p,t) N(pt)每个元素的顶q邻居:
在这里插入图片描述
对于画廊图像 N ( g i , M ) N(g_{i},M) NgiM中的每一个,可以根据其直接邻居及其邻居获得相似的扩展邻居多集。 集合N(p,M)或N(gi,M)中的邻居总数M为M = t + t×q。最后,将图像对(p,gi)的扩展跨邻域(ECN)距离定义为:
在这里插入图片描述
其中 p N j pN_{j} pNj是探针扩展邻居集合N(p,M)中的第j个邻居, g i N j g_{i}N_{j} giNj是第i个画廊图像扩展邻居集合N(gi,M)中的第j个邻居。 d(·)项是该对之间的距离。可以看到,上面的ECN距离只是将每个图像的扩展邻居的距离彼此成对聚合。尽管我们在评估中表明,使用等式3中的直接欧几里德距离会导致等级精度方面的类似改善,但我们也可以使用更可靠的基于等级列表的距离来进一步提高性能,尤其是在平均平均精度方面(mAP)。这些距离可以直接从初始配对距离矩阵或最终的初始等级列表中计算出来。最近的重新排序建议使用Jaccard距离进行列表比较,这在计算上是昂贵的,在这里我们建议使用Jarvis和Patrick [13]提出的一种相当简单的列表比较相似性度量,并在[28]中成功地用于人脸验证任务中。 列表相似性是根据两个列表的前K个邻居的位置来衡量的。对于具有B个图像的排名列表,让posi(b)表示图像b在有序排名列表Li中的位置。就仅考虑列表中的前K个邻居而言,排名列表相似度R由下式给出:
在这里插入图片描述

在此, [ ⋅ ] + = m a x ( ⋅ , 0 ) [·] _{+} = max(·,0) []+max0。 此措施可确保在考虑前K个邻居在列表中位置的基础上,以相似度为基础。 从实现的角度出发,可以通过单矩阵乘法和加法运算从初始获得的等级列表中有效地计算该等级列表相似度。 在公式3中使用它。我们将其转换为距离d = 1-R ∗,其中R ∗表示R中值的最小最大缩放。最后,将用于计算最终ECN距离的参数t,q和K(在使用排名列表距离的情况下)设置为 t = 3,q = 8,K =25。虽然我们展示了这些参数选择在许多不同大小的数据集上的性能非常稳定,但从直觉上我们也可以看到,在第一个级别(t)使用最强的顶部邻居,并在第二级别(q)将其扩展到更多一点,这是有意义的。 请注意,由于我们的邻居的邻居扩展仅查找邻居的第一级和第二级,因此我们无需计算昂贵的KD树或邻域图即可在等式1中获得这些扩展集,因此我们可以轻松地从初始 计算的有序等级列表矩阵。

5. Evaluation

我们在单查询设置中使用标准跨相机评估报告结果。准确性是通过等级分数来衡量的,等级分数是从累积的匹配特性(CMC)和平均准确率(mAP)获得的。

数据集:我们在四个数据集上评估我们的方法,Market-1501 [44](Market),Duke-MTMC-reID [26](Duke),MARS [31]和PRW [45]。

Market-1501(Market)数据集由32,668个边界框组成,这些边界框由人检测器在来自六个摄像机的视频上生成的1,501个不同的人组成。培训751人,测试750人。训练集包含12,936张图像,图库集19,732张图像,查询集包含3,368张图像。

Duke-MTMC-reID(Duke)数据集是根据八个摄像机的数据创建的。在数据中的1,812人中,有1,404人在一个以上的摄像机中发生。培训和测试集均由702人组成。训练集包括16,522张图像,图库17,661张图像和查询集2,228张图像。 Duke数据集中的人员边界框是手动注释的。

MARS数据集包含1,478个重复出现的人员的20,478个轨迹。包括3,248个分心器小轨迹,这使数据集中的人像总数达到1,191,993,火车/测试分割分别为625和636人的509,914 / 681,089张像。该数据集非常适合评估re-id方法用于人迹检索的性能。

PRW数据集包含11,816帧视频数据。图像用43,110个人边界框注释,其中的34,304被分配了932个人ID之一。为了训练,可以使用5134个帧,其中包括482个不同的人。在测试时间,必须在6,112张完整图像的图库中找到2057张裁剪后的人物查询图像。 PRW数据集允许评估re-id方法对假阳性或错位人员检测的鲁棒性。

为了与相关方法进行比较,我们将评估分为三个部分。在第5.1节和第5.2节中,我们分别研究了姿势敏感的嵌入和重新排序的关键组成部分。在第5.3节中,我们将建议的嵌入和重新排名与最新方法进行了比较。我们还展示了针对大型画廊的检测器错误解决方案的强大性能及其可扩展性。

5.1. Study of Pose Information

我们通过仅使用视图信息,仅姿势信息以及两者的组合执行单独的实验,研究了将不同粒度的姿势信息包含到CNN中的有用性。实验在Market和Duke上进行。为了表明我们的建议并不严格依赖于基础CNN架构,除了使用基于ResNet50的主要CNN之外,我们还展示了流行的Inception-v4 CNN的结果。对于Inception-v4,视图预测器在较早的Reduction-A块中分支出来,并且通过在最后使用三个Inception-C块类似地添加视图单元。表1给出了我们的实验结果。
在这里插入图片描述
与没有任何显式建模的姿势信息的基线相比,包含视图或姿势可以显着提高所生成特征嵌入的准确性。该观察结果适用于两个数据集以及两个网络体系结构。对于ResNet模型,视图信息导致两个数据集的mAP的绝对值都有较大的提高(大约6-7%),而姿势信息仅导致mAP的大约2-3%的提高。 Inception-v4模型的结果不一致。两种类型的信息仍然取得了很大的改进,但是在Market数据集上,两种类型的绝对改进在mAP上都达到了10%左右,而在Duke上,通过姿势信息获得的mAP改进了11%,明显超过了包含视图信息所获得的4%。

最后,与任何一种姿势信息的最佳结果相比,两种信息的组合会导致mAP的进一步一致增加。例如,在基本的ResNet-50模型上,该组合在Market和Duke的mAP分别进一步提高了2.1%和5.3%。同样,在基本Inception-v4模型上,该组合将Market上的mAP进一步提高了3%,将Duke上的mAP提高了2.2%。这清楚地表明,我们包含不同程度的姿势信息的方法是相互补充的。
在这里插入图片描述
视图预测器性能:经过训练的ResNet-50视图预测器在RAP数据集的带注释的测试集上的性能分别为正视图,后视图和侧视图,分别为82.2%,86.9%和81.9%。为了说明其在目标reid数据集上的性能,我们在图3中显示了均值图像。这些图像是通过对目标数据集的测试集上被分类为正面,左侧或侧面的所有图像取平均值而获得的。这种可视化在没有带注释的视图标签的情况下给目标re-id数据以视图预测准确性的印象。在前平均图像中,可以清楚辨别肤色的脸部区域,这表明大多数图像实际上是额叶图像。同样,背面均值图像可以正确显示一个人的背面。除了可能出现的视图预测错误外,侧视图还更加模棱两可,这主要是因为我们将左侧和右侧分组为一个组合类。

5.2. Study of Re-Ranking

在表2中,我们将建议的ECN重新排名的几种配置与整个市场,CUHK03(检测到的)[19]和MARS数据集的其他流行的重新排名方法进行了比较。注意,CUHK03包括标记的和检测到的(使用人体检测器)人员边界框。我们选择了CUHK03(检测到),因为它更具挑战性。我们根据[48] [39]中使用的新的固定火车/测试协议评估CHUK03。为了与这些数据集上几种重新排序方法的已发布结果进行比较,我们使用相同的基线特征,[48]提供了2,048个维度的ID区分嵌入。我们与用于对象检索和人员重新识别的先前重新排序技术进行比较,包括上下文不相似性度量(CDM)[14],空间受限(k-NN)重新排序[30],平均查询扩展(AQE)[7]和当前最先进的稀疏上下文激活(SCA)[1],k互逆编码(k-reciprocal)[48]及其直接乘法应用除法和融合(DaF)[39]。如图所示,我们的ECN重新排名在mAP和等级1指标上的所有三个数据集上均实现了性能的持续改进。

我们提供ECN框架不同组件的性能。如表2所示,仅使用公式4的等级列表距离(等级距离)仍可提供有意义的性能提升。在ECN框架内,仅使用方程式3“ ECN(orig-dist)”中的直接欧几里德距离就可以在等级1得分中获得类似的高性能提升,实际上要比最新的k-reciprocal[ [48]的方法更好,将互易式列表比较与本地查询扩展以及秩和欧几里得距离的融合一起使用。由于这不涉及计算任何基于排名列表的比较,因此该结果是我们建议的另一个非常诱人的结果。最后,我们使用等式4的简单排名列表比较作为ECN公式3中的距离,对我们的ECN进行重新排名,可提供最佳结果并进一步改善mAP。

参数影响:在表2和表3中列出的所有评估中,ECN参数均设置为t = 3和q = 8。鉴于所用数据集的查询和测试集中的图像数量差异很大,结果表明这些参数的稳定性。我们研究了更改这些因素对Market和Duke数据集的影响,发现在t∈[2,4]和q∈[4,10]的范围内,它是微妙的,不同组合的性能下降了约0.2-0.8%在此范围内。同样,等式4中参数K的影响在K∈[10,30]内效果很好,当在所有三个大型数据集Mar ket,MARS和Duke上K> 20时,性能会更好。在此范围内,随着K的变化,抖动的精度保持在±2%以内。

由于CUHK03是一个相对较小的数据集,因此DaF [39]和k-倒数[48]都通过使用与其他数据集不同的参数值来报告CUHK03的结果。尽管我们在CUHK03上使用了相同的ECN参数t = 3和q = 8,但对于秩列表距离,我们使用参数K = 10而不是K = 25(在所有其他数据集上使用)获得了更高的性能。在等式4中。CHUK03数据集的表2中报告的结果为K = 10,但是,当K = 25时,我们仍然比最先进的方法获得更好的性能,mAP为28.4%,等级为-1 26.0%。

复杂度分析:ECN的计算复杂度为 O ( N 2 l o g N ) O(N^2 logN) O(N2logN)(与其他重新排序方法相同),但是它通过避免为每个图像对重新计算邻居列表来执行较少的计算步骤。在其带有ECN(orig-dist)的变体中,它提供了紧密的改进,而不必重新计算基于距离的排名列表(因此步数甚至更少)。例如,在大型Duke数据集上(对19,889张图像进行重新排名),相关工作k倒数[48]的五次运行平均计算时间为124.6s,而ECN的115.3s和73.2s(排名dist )和ECN(orig-dist)。

5.3. State-of-the-art

在表3中,我们在三种流行的数据集(Market,Duke和MARS)上比较了我们的方法与已发布的最新技术的性能。在表格的顶部,我们比较了没有对姿势敏感的嵌入进行任何排名的方法。嵌入在MARS和Duke数据集上均达到最高的准确性。在Market数据集上,我们的嵌入效果比使用两个或多个多尺度嵌入的DPFL [3]方法稍差。在所有三个数据集中,通过在基础ResNet上包含姿态信息所实现的mAP的增加范围为7.4%至11.7%。在表3的底部,我们列出了重新排名的最佳方法。结合我们提出的重新排序方案,我们在所有三个数据集上都设置了新的最新技术。在Market上,我们将mAP提高11.4%,在Duke提高了19.2%,而MARS则下降了4.5%。
在这里插入图片描述
**现实世界中的注意事项:**在现实世界的应用程序中,re-id方法需要可扩展(大型画廊),并与自动人体检测器结合使用,后者可能会产生错误,例如未对准的检测结果或误报。为了调查我们提出的PSE模型的可伸缩性,我们对Market + 500k数据集进行评估,以判断其在大型画廊实际部署中的稳健性。 Market + 500k数据集通过包含多达500,000个分心者图像来扩展Market数据集。与其他最新技术相比,我们的PSE模型的mAP和rank-1准确性的相对变化在表4中进行了描述。尽管我们的嵌入算法在没有任何干扰的情况下胜过已发布的最新技术,添加干扰器时观察到的精度下降也明显不如其他方法那样陡峭。在500,000个干扰项中,我们的PSE的mAP下降了12.5%,而相关方法下降了14%以上,同样,PSE的rank1准确性下降了约7%,而相关方法下降了约10%。这表明了我们在更现实的环境中PSE模型的质量。
在这里插入图片描述
为了在检测器误差下测试我们的PSE嵌入,我们在PRW数据集上训练和评估其性能[45]。使用数据集提供的DPM检测,我们观察到与Market或Duke上相似的趋势。两种姿势信息在基线上都有显著改善,并且在与PSE嵌入结合使用时,可以进一步提高准确性。如表5所示,当考虑每张图像进行更多检测时,性能是稳定的(因此,假阳性的增加)。PSE嵌入可实现最新的准确性,在mAP中的性能至少比相关方法高6.3%(当平均每个图像考虑3次检测)。结果证实了直觉信息,即姿势信息是识别和处理错位和假阳性人检测的有用提示。

6. Conclusion

对于个人Re-id和检索应用程序,我们提出了两个相关但独立的贡献。 我们表明,精细和粗略的体位提示对于重新识别都非常重要,并提出了一种新的姿势敏感的CNN嵌入方法,将它们结合在一起。 PSE模型当前依赖于外部姿势预测器,将其完全集成到模型中将很有用。 重新排序方法不受监督,可用于一般的图像和视频检索应用程序。 我们的人员re-id模型和重新排序方法都独立且相互配合,在许多具有挑战性的数据集上设定了最新的技术水平。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值