Pose Invariant Embedding for Deep Person Re-identification论文翻译

摘要:主要由检测器错误和姿势变化引起的行人不对准是健壮的行人重识别(re-ID)系统的关键问题。如果对齐不良,背景噪声将严重影响功能学习和匹配过程。为了解决这个问题,本文介绍了姿态不变嵌入(PIE)作为行人描述符。首先,为了将行人与标准姿势对齐,引入了PoseBox结构,其通过姿势估计然后仿射变换生成。其次,为了减少PoseBox构造过程中姿势估计误差和信息丢失的影响,我们设计了一种Pose-Box融合(PBF)CNN架构,它将原始图像,PoseBox和姿势估计置信度作为输入。因此,所提出的PIE描述符被定义为用于检索任务的PBF网络的完全连接层。实验在Market-1501,CUHK03和VIPeR数据集上进行。我们证明Pose-Box单独产生了良好的re-ID精度,并且当集成在PBF网络中时,与最先进的方法相比,学习的PIE描述符产生了竞争性能。

1  、简介:

        本文研究了行人重识别(re-ID)的任务。 给定一个probe(感兴趣的人)和一个gallery,我们的目标是在gallery中找到包含probe的同一个人的所有图像。 我们专注于识别问题,这是一个检索任务,其中每个probe在gallery中至少有一个实例42]。 许多因素会影响re-ID的准确性,例如检测/跟踪误差,光照变化,姿势,视觉等。

     重识别准确性的一个关键影响因素是行人的错位,这可归因于两个原因。 首先,行人自然会采取各种姿势,如图1所示。姿势变化意味着身体部位在边界框内的位置是不可预测的。例如,一个人的手可能到达头部上方,或者一个人骑自行车而不是直立。 未对准的第二个原因是检测错误。 如图1的第二行所示,检测误差可能导致严重的垂直未对准。

     当行人对齐不良时,重识别ID的准确性会受到影响。 例如,re-ID中的常见做法是将边界框划分为水平条纹。 该方法在略微垂直未对准的假设下工作。 但是当如图1的第2行中的情况那样发生垂直未对准时,一个人的头部将与未对准图像的背景匹配。 因此,当发生严重错位时,水平条纹可能效果较差。 在另一个示例中,在各种行人姿势下,背景可能被特征提取器错误地加权,因此影响以下匹配精度。

    据我们所知,同一组的两篇先前的作品[8,7]明确地考虑了错位问题。 在两个文章中,使用图像结构(PS),其与PoseBox共享类似的动机和构造过程,并且检索过程主要依赖于匹配标准化的身体部位。 虽然构建标准化姿势的想法是类似的,但我们的工作使用最先进的基于CNN的姿势估计器来定位身体关节,并且PoseBox的组件与PS不同,如大规模评估所证明的。 我们工作的另一个不同之处是匹配程序。 而且[8,7]没有讨论现实世界数据集中普遍存在的姿势估计误差,但我们发现这些误差使得刚性特征学习/匹配只有PoseBox产生的结果与原始图像相比较差,并且three-stream PoseBox融合网络有效地缓解了这个问题。

     考虑到上述问题和以往方法的局限性,本文提出了姿态不变嵌入(PIE)作为鲁棒视觉描述符。 涉及两个步骤。 首先,我们为每个行人边界框构建一个PoseBox。 PoseBox描绘了一个具有标准化立场姿势的行人。 PoseBox在姿势估算器的帮助下精心设计[34],旨在生产良好对齐的行人图像,以便学习的特征可以在密集的姿势变化下找到同一个人。 我们使用标准CNN架构单独训练[37,41,44],我们证明了PoseBox产生了非常不错的re-ID精度。

       其次,为了减少PoseBox构建过程中信息丢失和姿势估计误差的影响(图2),我们构建了一个PoseBox融合(PBF)CNN模型,其中有三个流作为输入:PoseBox,原始图像和姿势估计置信度。 PBF在原始图像和PoseBox之间实现了全局优化的权衡。 因此,PIE被定义为PBF网络的FC激活。 在几个基准数据集中,我们表明联合训练程序产生了对现有技术的竞争性重新ID精确度。 总之,本文有三个贡献。

  • 次要贡献:提议PoseBox与之前的作品具有相似的性质[8]。 它可以实现良好对齐的行人匹配,并且在单独使用时可以产生令人满意的重新ID性能。
  • 主要贡献:姿势不变嵌入(PIE)被提议作为PoseBox Fusion(PBF)网络的一部分。 PBF融合 原始图像、Pose-Box和姿势估计误差,从而在姿势估计失败时提供回退机制。
  • 使用PIE,我们在Market-1501,CUHK03和VIPeR数据集上报告竞争性re-ID准确性。

2。相关工作:

     姿态估计: 在先驱“DeepPose”[30]之后,姿势估计研究已经从传统方法[8,7]转向深度学习。 最近的一些方法采用多尺度特征和研究机制来组合它们[29,26]。 它也有效通过规范一元分数和成对比较来注入身体关节之间的空间关系[11,27]。本文采用卷积姿势机(CPM)[34],一种具有多个阶段和连续姿势的最先进的姿势估计器预测。

    re-ID与深度学习:由于其卓越的性能,基于深度学习的方法在过去两年中一直主导着re-ID社区。在前两部文献[20,39]中,使用了以两个图像作为输入的孪生模型。在后来的工作中,该模型以各种方式得到改进,例如注入更复杂的空间约束[1,6],使用LSTM建模身体部位的连续属性[32],以及挖掘不同图像对的判别匹配部分[31] 。在[43]中指出,孪生模型仅使用弱的重新ID标签:两个图像是同一个人或不同一个人;并且指出完全使用强re-ID标签的识别模型是更优越的。以前的几个文献采用了识别模型[37,36,41]。在[41]中,视频帧被用作每个人类的训练样本,在[37]中,为每个训练域发现了有效的神经元,并提出了一种新的dropout策略。 [36]中提出的架构更类似于我们工作中的PBF模型。在[36]中,手工制作的低级特征在连接到softmax层的完全连接(FC)层之后连接在一起。我们的网络类似于[36],因为姿势估计的置信度得分与其他两个FC层相关联。它与[36]的不同之处在于我们的网络将三个流作为输入,其中两个是原始图像。

re-ID与姿态:虽然许多以前的文献已经提到姿势变化作为re-ID的影响因素,但只能找到少数文献来讨论它们之间的联系。 Farenzena等人。 [12]提出检测不同身体部位的对称轴并提取姿势变化后的特征。在[35]中,HOG检测器提供了对上身取向的粗略估计,然后将上身呈现为关节3D模型的纹理。 Bak等。 [3]进一步将每个人分为三种姿势类型:正面,背面和侧面。在[9]中利用了类似的想法,其中使用了四种姿势类型。两个作品[3,9]根据不同的测试姿势对应用视点特定距离度量。最接近PoseBox的作品是[8,7],它构造了图形结构(PS),与PoseBox类似的概念。他们使用传统的姿势估计器和手工制作的描述符,这些描述符大大低于CNN。我们的工作采用了一整套更强大的技术,并设计了一个更有效的CNN结构,证明了大规模数据集上具有竞争力的re-ID的精度。

3. Proposed Method

   3.1. PoseBox Construction

           PoseBox的构造有两个步骤,即姿势估计和PoseBox投影。

           姿态估计:本文采用卷积姿势机(CPM)的现成模型[34]。 简而言之,CPM是一种顺序卷积体系结构,可以强制执行中间监督以防止消失的渐变。 检测到一组14个身体关节,即头部,颈部,左肩和右肩,左右肘,左右手腕,左右臀部,左右膝盖和左右脚踝,如图所示 图3的第二列。

           身体部位发现和仿射投射:从检测到的关节,可以描绘10个身体部位(第三个图3栏。 部件包括头部,躯干,上臂和下臂(左和右),以及上下腿(左和右),几乎覆盖整个身体。 使用仿射变换将这些四边形部分投影到矩形

          更详细地说,头部由头部和颈部的关节限定,我们手动将每个头部盒子的宽度设置为其高度的3 2(从头部到颈部)。 上臂由肩部和肘关节限制,下臂由肘部和腕关节限制。 手臂盒的宽度设置为20像素。 类似地,上腿和下腿分别由髋关节和膝关节以及膝关节和踝关节限定。 它们的宽度都是30像素。 躯干由四个身体关节限制,即两个肩部和两个臀部,所以我们简单地为躯干绘制一个四边形。 由于姿势估计误差,仿射变换可能遇到奇异值。 因此在实践中,当身体部位的姿势估计置信度低于阈值(设置为0.4)时,我们添加一些小的随机干扰。

         三种类型的Pose Box:在以前的几个讨论不同部分性能的工作中,一个共同的发现是躯干和腿的贡献最大[8,1,6]。 这是预期的,因为上身和下身衣服中存在最显着的特征。 基于现有观察,本文构建了三种类型的PoseBox,如下所述。

  •           PoseBox 1.它由躯干和两条腿组成。 腿由上腿和下腿组成。 Pose-Box 1包括两个最重要的身体部位,并且是其他两个PoseBox类型的基线。
  •           PoseBox 2.基于PoseBox 1,我们进一步添加左右手臂。 臂包括上臂和下臂子模块。 在我们的实验中,我们表明PoseBox 2优于PoseBox 1,因为手臂带来了丰富的信息。
  •           PoseBox 3.在PoseBox 2的基础上,我们将头盒放在躯干盒的顶部。 在[8]中显示,包含头部带来了边际性能提升。 在我们的例子中,我们发现PoseBox 3略逊于PoseBox2,可能是因为频繁的头/颈估计错误。

        remarks:PoseBox的优点是双重的。 首先,可以纠正姿势变化。 其次,可以大大消除背景噪音。

        PoseBox在两个方面也受到限制。 首先,经常发生姿势估计误差,导致不精确地检测到关节。 其次,PoseBox是手动设计的,因此无法保证在信息丢失或re-ID准确性方面是最佳的。 我们通过融合架构解决这两个问题,将在3.3节中介绍。 对于第二个问题,具体来说,我们注意到我们手动构造Pose-Box,因为当前的re-ID数据集不提供基本真实姿势,没有这些,设计端到端学习方法来自动生成规范化姿势并非易事。

  3.2. Baselines

        本文分别基于原始行人图像和PoseBox构建了两个基线。 根据最近调查[43]的结果,识别模型[19]在Market-1501数据集[42]上显着优于验证模型[1,20]:前者充分利用了重新ID标签, 即每个边界框的标识,而后者仅使用弱标签,即两个框是否属于同一个人。 因此在本文中我们采用了识别CNN模型(图4)。 具体来说,本文使用标准的AlexNet [19]和Residual-50 [15]架构。 我们向读者推荐相应的论文,以获取详细的网络描述。

        在训练期间,我们使用默认参数设置,除了编辑最后一个FC层以具有与训练集中ID的数量相同的神经元数量。 在测试期间,输入图像的大小调整为224×224,我们将为AlexNet提取FC7 / FC8激活,并为ResNet-50提取Pool5 / FC激活。 在l2正则化之后,我们使用欧氏距离在测试集中执行人员检索。 关于输入图像类型,本文使用了两个基线:

  •     基线1:在训练和测试期间,原始图像(调整大小为224×224)用作CNN的输入。
  •     基线2:PoseBox(调整大小为224×224)在训练和测试期间用作CNN的输入。 请注意,每次只使用一种PoseBox类型。

  3.3. The PoseBox Fusion (PBF) Network

      Motivation:在PoseBox构造期间,可能发生姿势估计错误和信息丢失,导致PoseBox的质量受损(参见图2)。 一方面,姿势估计错误经常发生,因此我们使用现成的姿势估计器(在实际使用中通常是这种情况)。 如图5和图1所示,当检测具有缺失部分或者具有低分辨率的行人图像时,姿势估计可能失败。 另一方面,当从边界框中裁剪人体部位时,不可避免地会遗漏重要的细节,例如袋子和雨伞(图2)。 构建高质量PoseBox的失败以及部分裁剪期间的信息丢失可能导致基线2的结果受损。这在实验中证实,基线1的re-ID精确优于基线2。

      对于第一个问题,即姿势估计误差,我们可以通过求助于置信度得分来预测姿势估计的质量(示例可以在图5中看到)。 在高估计置信度下,我们设想生成高质量的PoseBox。 但是当某些身体部位的姿势估计置信度得分较低时,可能会预期构造的PoseBox质量较差。 对于第二个问题(细节丢失),可以通过重新引入原始图像来挽救丢失的视觉提示,以便由深度网络捕获辨别细节。

    Network:鉴于上述考虑,本文提出了一种three-stream PoseBox融合(PBF)网络,它将原始图像PoseBox置信度向量作为输入(见图6)。 为了利用ImageNet [10]预先训练的模型,两种类型的图像输入,即原始图像和PoseBox被调整256×256(然后随机裁剪为227×227)用于AlexNet [19]和(然后随机裁剪为224×224) 对用ResNet-50 [15]。 第三输入,即姿势估计置信度分数,是14维向量,其中每个条目落在范围[0,1]内。

     两个图像输入被输送到两个相同结构的CNN。 由于原始图像及其PoseBox的内容差异,两个卷积层流不共享权重,尽管它们是从相同的种子模型初始化的。 FC6和FC7层连接到这些卷积层之后。 对于置信度向量,我们添加一个小的FC层,它将14-dim向量投影到14-dim FC向量。 我们连接FC7层的三个输入,它进一步完全连接到FC8。 三个Softmax损失的总和用于损失计算。 当使用ResNet-50 [15]代替AlexNet时,图6没有FC6层,FC7和FC8层称为Pool5和FC。

     在图6中,如绿色边界框所示,姿态不变嵌入(PIE)可以是连接的FC7激活(4,096 + 4,096 + 14 = 8,206-dim)或其下一个完全连接的层(751-dim和1,160-dim for Market-1501和CUHK03)。 对于AlexNet,我们将两个PIE描述符分别表示为PIE(A,FC7)和PIE(A,FC8); 对于ResNet-50,它们分别被称为PIE(R,Pool5)和PIE(R,FC)。

    在训练期间,将输入batch三元组(原始图像,其PoseBox和置信矢量)的输送到PBF中,并且将三个损失的总和反向传播到卷积层。 ImageNet预训练模型初始化原始图像和PoseBox stream。

    在测试期间,给定图像的三个输入,我们提取PIE作为描述符。 请注意,我们在提取的特征上应用ReLU,根据我们的初步实验产生优异的结果。 然后,在生成排序的排名列表之前,欧几里德距离用于计算探测和图库图像之间的相似性。

   PBF有三个优点。 首先,置信度向量是PoseBox是否可靠的指标。 这提高了PBF作为静态嵌入网络的学习能力,从而可以找到PoseBox和原始图像之间的全局权衡。 其次,原始图像不仅在姿势估计失败时启用后备机制,而且还重新训练在PoseBox构造期间可能丢失的行人细节,这在区分身份时是有用的。 第三,PoseBox为原始图像提供了重要的补充提示。 使用正确预测的关节,行人匹配可以通过良好对齐的图像更准确。 因此可以减少检测误差和姿势变化的影响。

4. Experiment
  4.1. Dataset

      本文使用三个数据集进行评估,即VIPeR [14],CUHK03 [20]和Market-1501 [42]。 VIPeR数据集包含632个身份,每个身份有2个摄像头捕获的2个图像。它被平均分为训练集和测试集,每个集由316个ID和632个图像组成。我们执行10次随机分成训练/测试并计算平均准确度。 CUHK03数据集包含1,360个身份和13,164个图像。每个人通过2个摄像头观察,平均每个摄像头下有4.8个图像。我们采用单次模式并在20个随机分成训练/测试下评估该数据集。 Market-1501数据集的特点是1,501个ID,19,732个图库图像和6个摄像头捕获的12,936个训练图像。 CUHK03和Market-1501都是由DPM探测器产生的[13]。累积匹配特征(CMC)曲线用于所有三个数据集,其编码在排名列表中的前n个排名内找到查询人的可能性。对于Market-1501和CUHK03,我们还使用平均平均精度(mAP),它考虑了检索过程的精确度和召回率[42]。此评估指标由Market-1501d的作者提供。

  4.2. Experimental Setups

       我们的实验直接采用现成的卷积姿势机(CPM),该机器使用在MPII人体姿势数据集上训练的多级CNN模型训练[2]。 默认设置大小为384×192的输入图像。对于PBF网络,我们将卷积层替换为来自AlexNet [19]或ResNet-50 [15]的卷积层。 当使用AlexNet时,n 1 = 4,096,n 2 = 14,n 3 = 751.当使用ResNet-50时,PBF将不具有FC6层,并且FC7层由Pool5表示:n 1 = 2,048,n 3 = 751.我们训练PBF网络36个epoch。 初始学习率设置为0.01,每6个epoch减少10倍。 我们在Caffe框架下使用GTX1080进行深度学习实验[16],并使用AlexNet和ResNet-50分别将batch_size设置为32和16。 对于两种CNN模型,训练过程需要6-7小时才能收敛在Market-1501数据集。

      我们分别在Market-1501和CUHK03上训练PIE,这些数据量相对较大。 我们还测试了PIE在一些较小数据集(如VIPeR)上的泛化能力。 也就是说,我们只使用在Market-1501上预训练的模型提取特征,然后在小数据集上学习一些距离度量。

   4.3. Evaluation

 

      标准: 我们首先评估3.2节中描述的两个re-ID标准。 三个数据集的结果如表1所示。可以得出两个主要结论。

       首先,我们观察到基线1可以实现非常有竞争力的性能,即用原始图像训练。 具体来说,在Market-1501上,我们分别使用AlexNet和ResNet-50达到了55.49%和73.02%的rank-1准确度。 这些数字与[43]中报道的数字一致。 此外,我们发现FC7(Pool5)优于Market-1501上的FC8(FC),但CUHK03的情况有所逆转。 我们推测CNN模型由于其较大的数据量而被训练为更具体地针对Market-1501训练集,因此Market-1501上的检索更像是CUHK03的转移任务。 在将ImageNet模型转移到其他识别任务时也观察到了这一点[28]。

      其次,与基线1相比,我们可以看出基线2在某种程度上较差。 例如,在Market-1501数据集上,使用AlexNet和ResNet-50分别通过基线2获得的结果分别降低了3.3%和8.9%。 由于第3.3节中提到的姿态估计误差和信息丢失,预计性能下降。 由于本文仅使用现成的姿势估计器,我们将来推测可以通过使用re-ID数据集上的新标注的数据重新训练姿势估计来改进PoseBox基线。

     The effectiveness of PIE:我们在re-ID基准测试中测试PIE,并将结果呈现在表1和图7中。

     与基线1和基线2相比,我们清楚地观察到PIE产生更高的重新ID准确度。 例如,在Market-1501上,当使用AlexNet和FC7描述符时,我们的方法在rank-1分别超过两个基线精度为+ 5.5%和+ 8,8%。 使用ResNet-50,改进略微变小,但仍然分别达到+ 5.0%和+ 6.8%。 具体而言,Market-1501的rank-1准确度和mAP分别达到78.65%和53.87%。 在CUHK03和VIPeR上,也可以观察到对基线的持续改进。

     此外,图7显示Kissme [18]略微提高了准确性,证明了PIE描述符是很好的学习。 与“PIE(Pool5)+ kissme”相比,基线1和2的Pool5特征与Kissme相结合产生的准确度较低,说明PBF网络学习的嵌入比单独学习更有效。 我们还发现2,048-dim“PIE(Pool5,img)+ EU”和“PIE(Pool5,pb)+ EU”优于相应的基线1和2.这表明PBF可能通过反向传播改善基线性能融合损失。

    Comparison of the three types of PoseBoxes:在3.1节中,定义了三种类型的PoseBox。 他们在Market-1501上的比较结果如图8所示。我们的观察结果是双重的。

    首先,PoseBox2优于PoseBox1。 在Market-1501数据集上,PoseBox2比PoseBox1将rank-1准确度提高了xx%。 因此,包含武器(?)增加了系统的辨别能力。 由于上臂通常与躯干具有相同的颜色/纹理,我们推测它是增强描述符的长/短袖。 其次,PoseBox2也比PoseBox3具有更好的性能。 对于PoseBox3,由于头部检测不稳定,磁头的集成会引入更多噪声,从而降低整体系统性能。 然而,我们在图8中发现,在集成到PBF中之后,不同PoseBox之间的间隙减小。 这是因为与原始图像的组合减少了估计误差和信息丢失的影响,这是第1节中提到的贡献。

   Ablation experiment(消融实验):为了评估PBF的不同组分的有效性,在Market-1501数据集上进行消融实验。 我们一次从整个系统中删除一个组件,包括Pose-Box,原始图像,置信度向量,以及PoseBox和原始图像流的两个丢失。 CMC曲线绘制在图9中,从中可以得出三个结论。

     首先,当去除置信度向量或两个损失时,剩余系统不如完整模型,但显示出类似的准确度。rank-1精度的性能下降约为1%。它说明了这两个组成部分是重要的正则化术语。置信度向量告诉系统PoseBox的可靠性,从而促进学习过程。这两种识别损失提供了额外的监督,以防止两个单独流的性能下降。其次,在删除原始图像流(“-img”)之后,性能显着下降但仍然优于基线2.因此,原始图像流非常重要,因为它可以减少可能的re-ID失败姿势估计误差导致的结果。第三,当PoseBox流被切断(“-PoseBox”),网络不如完整模型,但优于基线1.这证实了PoseBox的必要性,并表明置信度向量改善了基线1。

     Comparison with the state-of-the-art methods:在Market-1501,我们将PIE与表2中最先进的方法进行比较。显然,我们的方法大大优于这些最新结果。 具体来说,我们使用单一查询模式实现rank-1的准确度= 77.97%,mAP = 52.76%。 据我们所知,我们在Market-1501数据集上实现了最优的结果。

    在CUHK03上,比较结果如表3所示。当不使用度量学习时,我们的结果在最近的方法(例如[31])中在rank-1准确度方面具有竞争力,但在rank-5,rank-10,rank-20和mAP方面优越。 当使用Kissme [18]时,我们报告更高的结果:rank-1 = 67.10%,mAP = 71.32%,超过了现有技术水平。 我们注意到在[17]中,在手绘子集上报告了非常高的结果,但是在检测到的集合上没有找到结果。 我们还注意到,度量学习在Market-1501上比CUHK03产生了较小的改进,因为PBF网络由于其更丰富的注释而在Market-1501上受到更好的训练。

    在VIPeR上,我们使用在Market-1501上训练的现成PIE模型提取特征,比较如表4所示。我们首先将PIE(使用欧几里德距离)与最新的无监督方法进行比较,例如,高斯 Gaussian(GoG)[25],Bag-of-Words(BOW)[42]描述符等。我们使用作者提供的可用代码。 我们观察到PIE超过了rank-1,rank-5和rank-10精度的竞争方法。 然后,与没有特征融合的监督作品相比,我们的方法(结合镜像表示[5]和MFA [38])具有不错的结果。 我们进一步将PIE描述符与预先计算的传输深度描述符[36]和LOMO描述符[21]融合。 我们采用镜像表示[5]和MFA距离度量与Chi Square内核相结合。 融合系统在VIPeR数据集上实现了新的技术水平,rank-1精度= 54.49%。

     在图10中示出了两组样本re-ID结果。例如,在第一个查询中,背景上的青色衣服导致前景特征的误判,因此一些具有局部绿/蓝颜色的行人不正确地接收排名靠前。 使用PIE,可以有效地裁剪前景,从而实现更准确的行人匹配。

5. Conclusion

    本文明确解决了re-ID识别中的行人错位问题。 我们提出姿态不变嵌入(PIE)作为行人描述符。我们首先构造PoseBox,其中16个关节用卷积姿势机[34]检测。 PoseBox有助于纠正由摄像机视图,人员运动和探测器错误引起的姿势变化,并实现良好对齐的行人匹配。 因此,通过PoseBox融合(PBF)网络学习PIE,其中原始图像与PoseBox和姿势估计置信度融合。 在PoseBox构造期间,PBF减少了姿势估计错误和细节损失的影响。 我们表明,PoseBox单独使用时可以获得相当的准确性,并且与现有技术相比,PIE可以产生有竞争力的精度。

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值