FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification

最新推荐文章于 2021-01-27 18:53:38 发布

而濡木染

最新推荐文章于 2021-01-27 18:53:38 发布

阅读量2k

点赞数

分类专栏：深度学习文章标签： GAN Paper FD-GAN

深度学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification (NIPS2018)

Yixiao Ge，Zhuowan Li，Haiyu Zhao

Abstract

人员重新识别（reID）是一项重要任务，需要在给定感兴趣的人的一个图像的情况下从图像数据集中检索人的图像。为了学习健壮的人物特征，人物图像的姿势变化是关键挑战之一。针对该问题的现有工作要么执行人类对齐，要么学习基于人类区域的表示。推断通常需要额外的姿势信息和计算成本。为了解决该问题，提出了用于学习与身份相关和姿势无关的表示的特征提取生成对抗网络（FD-GAN）。它是一个基于暹罗结构的新颖框架，具有人类姿势和身份的多种新颖鉴别器。除了鉴别器之外，还集成了新颖的相同姿势损失，这要求出现相同人生成的图像是相似的。在用姿势引导学习与姿势无关的人特征之后，在测试期间不需要辅助姿势信息和额外的计算成本。我们提出的FD-GAN在三人reID数据集上实现了最先进的性能，这证明了所提出的FD-GAN的有效性和强大的特征提取能力。

1 Introduction

生成对抗网络（GAN）越来越受到图像生成的关注。最近，一些作品利用了GAN在帮助当前人reID算法方面的潜力。郑等人。 [3]提出了一种半监督结构，它利用标记平滑正则化来学习生成图像，用于异常值（LSRO）正则化。 PTGAN [4]被提议用于弥合不同数据集之间的领域差距。除了图像合成之外，GAN也可以用于表示学习。在这项工作中，我们提出了一种新的身份相关表示学习框架，用于强大的人员重新识别。

所提出的特征提取生成性对抗网络（FD-GAN）在姿势变化下维持身份特征一致性，而不增加推理的复杂性（如图1所示）。它采用连体结构进行特色学习。每个分支包括图像编码器和图像生成器。图像编码器在给定输入图像的情况下嵌入人物视觉特征。图像生成器通过编码器生成以姿势信息和输入的人物特征为条件的新人物图像。在框架中集成了多个鉴别器，以通过两个分支区分生成的图像之间的分支间和分支内关系。

所提出的身份鉴别器，姿势鉴别器和验证分类器以及重建损失和新颖的相同姿势损失共同规范了用于实现健壮的人reID的特征学习过程。利用对抗性损失，输入图像中的与身份无关的信息（例如姿势和背景外观）通过图像编码器从视觉特征中减轻。更重要的是，在推理期间，不再需要额外的姿势信息并且节省了额外的计算成本。我们的方法优于三个广泛使用的reID数据集中的先前工作，即Market-1501 [5]，CUHK03 [6]和DukeMTMC-reID [7]数据集。

总的来说，本文有以下贡献。 1）我们提出了一种新的框架FD-GAN，用于学习与姿势变化进行人重新识别的身份相关和姿势无关的表示。与现有的对齐或基于区域的学习方法不同，我们的框架在推理期间不需要额外的辅助姿势信息或增加计算复杂性。 2）虽然人物图像生成是我们框架的辅助任务，但是我们提出的方法生成的人物图像比现有的特定人物生成方法具有更好的质量。 3）提出的FD-GAN在Market-1501 [5]，CUHK03 [6]和DukeMTMC-reID [7]数据集上实现了最先进的重新识别性能。

2 Related Work

生成性对抗网络（GAN）。 Goodfellow等人。 [8]首先介绍了对抗过程来学习生成模型。 GAN通常由发生器和鉴别器组成，其中鉴别器试图将所生成的图像与实际分布区分开，并且生成器学会欺骗鉴别器。在先前的工作[9,10,11,12]中提出了一组约束来改进GAN的训练过程，例如，通过使用[12]中的附加潜在代码来学习可解释的表示。基于GAN的算法在图像生成中表现出优异的性能[13,14,15,16,17]。在人物图像生成方面，PG2被提议在[18]中以任意姿势合成人物图像。 Siarohin等。 [19]设计了一种单级方法，在发电机中具有可变形的跳跃连接，以便更好地变形人类。相比之下，我们的方法旨在在GAN的帮助下为人reID学习人物特征。除了人物图像合成之外，还通过DR-GAN [20]学习了面部识别的姿势解开表示，这与我们的方法有很大的不同。我们的实验结果表明，我们提出的FD-GAN在人reID上的表现优于DR-GAN。我们的主要目标是通过对抗性训练从图像特征中分解姿势信息，以学习与身份相关和姿势无关的表示。

人员重新识别（ReID）。人reID [21,22,23,24,25,26,27,28]由于各种人体姿势，领域差异，遮挡等原因而成为一项具有挑战性的任务。在以前的工作中采用了两种主要的方法，即学习辨别力人代表[29,30,31]和度量学习[24,32,33,34]。 PAN [1]对齐行人并同时学习人物特征而无需任何额外的注释。赵等人。 [2]提出了SpindleNet用于学习不同身体区域的人物特征以及额外的人体姿势信息。最近的方法[1,24,32,33,34,35,36,37,38]设计了更复杂的框架，以便在推理期间增加计算成本或需要额外信息来学习更强大的表示。

受到基于GAN的图像生成结构的出色表现的启发，之前的工作[3,20,4]开始设计基于GAN的算法以提高人员reID的验证性能。郑等人。 [3]引入了一种半监督管道，用于通过提出的LSRO方法联合训练生成的图像和来自训练数据集的真实图像，用于规范未标记数据。 PTGAN [4]被提议用于弥合单独的人reID数据集之间的域差距。由于人员reID数据集的姿势多样性带来的挑战，我们提出了一种新的基于GAN的框架，用于提取与身份相关的特征。

3 Feature Distilling Generative Adversarial Network

我们提出的特征提取生成性对抗网络（FD-GAN）旨在学习与身份相关和与姿势无关的人表示，以便处理人reID中的图像之间的大的姿势变化。

我们提出的方法的总体框架如图2所示。所提出的FD-GAN采用连体结构，包括图像编码器E，图像生成器G，身份验证分类器V和两个对抗性鉴别器，即身份鉴别器。做了和姿势鉴别器Dpd。对于网络的每个分支，它将人物图像和目标姿势地标图作为输入。每个分支处的图像编码器E首先将输入人图像变换为特征表示。身份验证分类器用于监督人reID的特征学习。然而，仅使用验证分类器使得编码器通常不仅编码人身份信息而且编码人姿势信息，这使得学习的特征对人姿势变化敏感。为了使学习的特征稳健并消除与姿势相关的信息，我们添加了以编码器的特征和目标姿势图为条件的图像生成器G.该假设是直观的，如果所学习的人物特征与姿势无关且与身份相关，那么它可用于准确地生成相同人物的图像但具有不同的目标姿势。身份鉴别器Did和姿势鉴别器Dpd被集成以规范图像生成过程。 Did和Dpd都是条件鉴别器，它们根据输入标识或姿势对输入图像是真实的还是假的进行分类。它们不用于对不同的身份和姿势进行分类。鼓励图像生成器与图像编码器一起用伪造的图像欺骗鉴别器。利用暹罗结构，还利用了最小化两个分支的假生成图像之间的差异的新颖的相同姿势损失，其被示出为进一步从输入图像中提取与姿势无关的信息。整个框架以端到端的方式进行联合培训。为了推断，仅使用图像编码器E而没有辅助姿势信息。

3.1 Image encoder and image generator

图像编码器E和图像生成器G的结构在图3（a）中示出。给定输入图像x，图像编码器E利用ResNet-50作为骨干网络将输入图像编码成2048维特征向量。图像生成器G将编码的人物特征和目标姿势图作为输入，并且旨在生成由目标姿势指定的同一人的另一图像。目标姿势图由18通道地图表示，其中每个通道表示一个姿势地标的位置的位置，并且一点地标位置被转换为类似高斯的热图。它由5块Convolution-BN-ReLU子网络编码以获得128维姿势特征向量。然后将视觉特征，目标姿势特征和从标准高斯分布采样的附加256维噪声矢量连接起来并输入到一系列5个卷积-BN-丢失-ReLU上采样块中以输出所生成的人图像。

3.2 Identity verification classifier

给定来自图像编码器的两个输入图像的视觉特征，身份验证分类器V确定两个图像是否属于同一个人。人员身份验证是人员重新识别的主要任务，并确保学习特征以捕获人物图像的身份信息。分类器的结构如图3（b）所示，它将两个人图像的视觉特征作为输入，并通过逐元素减法，元素方形，批量归一化层，完全连接层和最后是一个sigmoid非线性函数，用于输出输入图像对属于同一个人的概率。该分类器用二元交叉熵损失训练。令x1，x2表示两个输入人图像，并且d（x1; x2）表示由我们的子网络输出的同一人信任度得分。身份验证分类器V用以下二进制交叉熵损失训练，其中C是地面实况标签。如果x1，则C = 1; x2属于同一个人，否则C = 0。

3.3 Image generation with identity and pose discriminators

为了使图像编码器E正规化以仅学习身份相关信息，用身份鉴别器Did和姿势鉴别器Dpd训练下面的人图像生成器G以生成具有目标姿势的人物图像。给定输入图像xk（对于两个分支k = 1或2）和目标姿势p，生成的图像yk需要与xk具有相同的人物身份但具有目标姿势p。身份鉴别器用于维护编码的视觉特征中的身份相关信息，而姿势鉴别器旨在从特征中消除与姿势相关的信息。

身份鉴别器训练以区分生成的人图像和同一分支的输入人图像是否属于同一个人。图像生成器将试图欺骗身份鉴别器以确保编码的视觉特征包含足够的身份相关信息。身份鉴别器子网络具有与身份验证分类器V类似的网络结构（参见图3（c））。然而，其用于视觉特征编码的ResNet-50子网不与我们的图像编码器E共享权重，因为身份鉴别器确实旨在区分真/假图像之间的身份，而我们的图像编码器目标在学习姿势 - 不相关的人特征。两个任务之间存在域差距，共享权重阻碍了图像编码器的特征学习过程。我们的实验支持这种论点。令y0k表示与输入图像xk和目标姿势p具有相同标识的真人图像。然后可以将身份鉴别器Di的对抗性损失定义为

其中Y和Z表示图像生成器G的真实数据分布和生成的数据分布。

提出姿势鉴别器Dpd以区分所生成的人物图像yk（对于k = 1或2）是否与给定的目标姿势p匹配。姿势鉴别器的子网结构如图3（d）所示。它采用PatchGAN [39]结构。输入图像和姿势图（在高斯类热图变换之后）首先沿着信道维度连接，然后由4个卷积 - ReLU块和S形非线性处理，以获得具有0和0之间的值的图像 - 姿势匹配置信度图。 1.置信度图的每个位置表示输入人图像和姿势界标图之间的匹配度。图像生成器G将试图欺骗姿势鉴别器Dpd以获得与伪造的图像的高匹配置信度。
然后将Ddp的对抗性损失表述为

其中Dpd利用连接的人图像和姿势地标图作为输入。
然而，我们观察到姿势鉴别器Dpd可能过度拟合姿势，即，Dpd可能记住特定姿势和人物外观之间的对应关系，因为每个图像的姿势通常是唯一的。例如，如果我们使用蓝顶人的姿势作为目标姿势，则生成的红顶人物图像可能最终具有蓝色顶部。为了解决这个问题，我们提出了一种在线姿势图增强方案。在训练期间，对于每个姿势界标，其在一些特定范围内的随机高斯带宽获得其1通道高斯型热图。通过这种方式，我们可以为相同的姿势创建许多姿势贴图，并缓解姿势过度拟合问题。

重建损失。 G的责任不仅是使辨别者感到困惑，而且还产生类似于地面真实图像的图像。然而，单独的鉴别器不能保证产生人类可感知的图像。因此，引入重建损失以最小化所生成的图像yk与其对应的实像y0k之间的L1差异，这被示出有助于训练发生器的更稳定的收敛。

其中mn是真/假图像中的像素数。当输入图像xk和目标姿势p没有对应的地面实况图像y0k时，不利用该损失。

相同的姿势损失。图像生成器G的目的是帮助图像编码器仅提取与姿势无关的信息。我们将同一个人的两个不同图像和相同的目标姿势输入到我们的暹罗网络的两个分支，如果两个分支中的条件视觉特征真正仅与身份相关，则两个生成的图像在外观上应该相似。因此，我们提出了相同的姿势损失，以最小化同一个人的两个生成图像与目标姿势之间的差异，

这鼓励来自两个输入图像的E的学习视觉特征仅与身份相关而忽略其他因素。

整体培训目标。上述分类器丢失，鉴别器损失和重建损失协同工作以用于学习与身份相关和与姿势无关的表示。整体损失函数可以定义为：

其中id，pd，r，sp是辅助图像生成任务的加权因子。

3.4 Training scheme

培训我们提出的框架有三个阶段。在第一阶段中，仅包括图像编码器E和身份验证分类器V的我们的连体基线模型在人reID数据集上预训练，其中仅具有等式中的身份交叉熵损失Lv。（1）。然后使用预先训练的网络权重来初始化阶段II中的E，V和身份鉴别器。在第二阶段，E和V的参数是固定的。然后，我们训练G，身份鉴别器Did，并使用方程式中的总体目标L构造鉴别器Dpd。（6）。最后，整个网络以端到端的方式联合微调。对于每个训练小批量，它包含128个人图像对，其中32个属于同一个人（正对），其中96个属于不同的人（负对）。将所有图像的大小调整为256 128.用于获得姿势地标热图的高斯带宽在[4;6]。

在训练阶段II和III中，可选地优化网络的鉴别器和其他部分。当联合优化发生器G，图像编码器E和验证分类器V时，总体目标Eq。（6）被使用。在优化鉴别器Did和Dpd时，仅采用对抗性损失Lid和Lpd。

第一阶段：ReID基线预训练。我们的Siamese基线仅包括图像编码器E和身份验证分类器V. ResNet-50子网首先使用ImageNet预训练权重[40]进行初始化。该网络由随机梯度下降（SGD）优化，动量为0.9。对于E，初始学习率设置为0.01，对于V，初始学习率设置为0.1，并且它们每40个时期减少到其先前值的0.1。阶段I训练过程迭代80个时期。

第二阶段：FD-GAN预训练。在E和V固定的情况下，我们将G，Did和Dpd集成到第二阶段的框架中。采用Adam优化器来优化Did和Dpd的G和SGD。 G，Did，Dpd的初始学习率分别为10分3分，10分4分，10分2分。学习率在前50个时期保持不变，然后在接下来的50个时期逐渐减少到0。损失权重设置为id = 0：1; pd = 0：1; r = 10; sp = 1.我们采用标签平滑度方案[41]来更好地平衡发生器和鉴别器之间的平衡。

第三阶段：全球微调。为了对整个框架进行端到端的微调，我们在加载第二阶段预训练的权重后，使用Adam优化E，G和V，以及用于Did，Dpd的SGD。具体来说，初始学习率设定为10魛€6;10魛€€6;10魛€€5;10魛€€4; E，G，V，Did，Dpd分别为10魛€4。学习率在前25个时期保持不变，然后在接下来的25个时期逐渐衰减到0。 E中的批量标准化层是固定的，以实现更好的性能。对于损失权重，id = 0：1; pd = 0：1; r = 10; sp = 1被设置为不同损失项的权重。

3.5 Comparison to DR-GAN

现有的工作DR-GAN [20]基于条件GAN [42]，它试图学习用于人脸识别的姿势变量身份表示。它还采用编码器 - 解码器结构，带有鉴别器，用于对两种身份进行分类。 4.2节中的比较结果证明了我们提出的方法优于DR-GAN对人reID任务的优势。

这是因为提出的FD-GAN和DR-GAN之间存在三个关键差异，这使得我们的算法更优越。 1）我们采用Siamese网络结构，这使我们能够使用相同的姿势损失来鼓励编码仅学习身份相关信息，而DR-GAN没有这样的损失术语。 2）我们不在图像编码器和身份鉴别器中共享ResNet-50网络之间的权重。我们观察到身份验证和真实/虚假图像身份辨别是不同领域中的两个任务，因此不应共享它们的权重。 3）我们的连体结构使用验证分类器而不是交叉熵分类器，它显示出比单分支网络更好的人员reID性能。

4 Experiments

4.1 Datasets and evaluation metrics(数据集和评估指标)

在本文中，三个数据集用于性能评估，包括Market-1501 [5]，CUHK03 [6]和DukeMTMC-reID [7]。 Market-1501数据集[5]包含12,936张751个用于训练的身份图像和19,281个用于测试的图库集中的750个身份的图像。 CUHK03数据集[6]包含从两个摄像机捕获的1,467个身份的14097个训练图像。使用原始培训和测试协议。 DukeMTMC-reID数据集[7]是基于图像的reID的行人跟踪数据集DukeMTMC的子集。它包含16,522张702个身份用于训练的图像。所有三个数据集的性能评估均采用平均精度（mAP）和CMC top-1精度。

4.2 Component analysis of the proposed FD-GAN

在本节中，进行成分分析以证明FD-GAN框架中组件的有效性，包括暹罗结构，以及验证分类器和相同姿势损失的使用。我们还与DR-GAN [20]进行比较，后者还建议学习姿势解开特征。我们的Siamese基线模型只是具有我们的身份验证分类器V的ResNet-50图像编码器E. 该分析在Market-1501 [5]和DukeMTMC-reID [7]数据集上进行，结果如表1所示。

孪生神经网络结构。我们首先将我们的Siamese reID基线（表示为基线（Siamese））与单人分支ResNet-50 [43]基线进行比较，该基线通过人员ID上的交叉熵损失进行训练（表示为基线（单个））。就两个数据集上的mAP而言，Siamese基线的单支分支基线优于12.7％和20.6％。

提议的FD-GAN，具有在线姿势图增强和对抗性鉴别器。基于Siamese结构，我们构建了我们提出的FD-GAN框架。我们可以观察到，就两个reID数据集的平均AP和前1准确度而言，所提出的FD-GAN从我们的暹罗基线获得了显着的改进。在两个数据集上的mAP方面，mAP有5.2％和3.2％的改进。为了显示我们提出的在线姿势图增强的有效性，我们在训练我们的FD-GAN时测试将其移除（在表1中表示为FD-GAN w / o pose aug。）。这导致两个数据集的性能下降0.5％。为了验证两个鉴别器Did和Dpd的效果，我们分别一起测试它们（在表1中表示为没有或Dpd的FD-GAN）。它不仅导致性能下降，而且导致生成的图像更差。

DR-GAN [20]，验证丢失，相同姿势丢失，不共享图像编码器。我们还研究了使用验证丢失和相同姿势丢失的有效性，并且没有将图像编码器权重共享给身份鉴别器。原始DR-GAN的姿势鉴别器将每个面部图像分类为13个姿势之一。为了公平比较，我们首先测试将DR-GAN整合到我们的暹罗基线（表示为Siamese DR-GAN）中，可以看到我们的FD-GAN没有相同的姿势损失，并且在E和Did之间共享权重。由于我们的网络使用姿势图作为输入条件，我们使用条件姿势鉴别器Dpd来代替DR-GAN的姿势鉴别器。在DukeMTMC-reID数据集上，Siamese DR-GAN甚至比我们的Siamese基线表现更差。我们提出的FD-GAN在两个数据集上的性能均超过4％。我们还尝试删除验证分类器和相同姿势丢失（表示为FD-GAN w / o sp。＆veri。），仅删除身份验证分类器（表示为FD-GAN w / o veri。），仅删除相同的 - 来自我们提出的FD-GAN的姿势损失（表示为FD-GAN w / o sp。）并且仅在E和Did之间共享权重（表示为FD-GAN共享E）。表1中的结果表明，验证损失和相同姿势损失对于在人reID上实现优越性能是必不可少的。此外，不在E和Did之间共享权重会带来更好的性能。

4.3 Comparison with state-of-the-arts

我们将我们提出的FD-GAN与最先进的人reID方法（包括VI + LSRO [3]，JLML [49]，PA [47]等）在三个数据集Market-1501 [5]上进行比较。，CUHK03 [6]和DukeMTMC-reID [7]。结果列于表2中。请注意，仅比较已发表论文的单个查询结果以进行公平比较。

通过基于ResNet-50 [43]基线网络结构微调FD-GAN，我们提出的FDGAN优于以前的方法并实现了最先进的性能。我们可以在Market-1501数据集上实现90：5％的前1精度和77：7％的mAP [5]，在CUHK03数据集上实现92：6％的前1精度和91：3％的mAP [6]和80 ：DukeMTMCreID数据集[7]上的0％前1精度和64：5％mAP，这证明了所提出的特征提取FD-GAN的有效性。

4.4 Person image generation and visual analysis

人物形象生成的比较[18,19]。虽然生成人物图像只是我们FD-GAN中的一项辅助任务，可以学习更强大的人物特征。我们感兴趣的是通过其他专门设计的人物生成方法将生成的图像与图像进行比较[18,19]。图4（a）示出了通过现有技术的人生成方法[18,19]和我们的FD-GAN生成的人图像。我们可以清楚地看到，我们提出的方法更好地理解“背包”的概念，并且可以产生正确的上身和下身衣服。我们认为关键是使用人物身份监督使编码器学习更好的身份相关功能。我们的连体结构和相同的姿势损失也有助于实现一致的生成结果。

学习功能的可视化。所提出的FD-GAN框架不仅提高了视觉特征的辨别能力，而且还可以用作手动检查所学特征表示的可视化工具。学习者特征的质量对生成的人物图像具有直接影响。因此，我们可以分辨出这些特征所捕获的人物外观的哪些方面。例如，对于图4（b）中的“输入1_b”，其生成的正面图像在上半身不显示彩色图案，而仅显示上半身和下半身的一般颜色和形状，这可能表明学习的图像编码器专注于嵌入人的整体外观，但未能在外观上捕捉到可辨别的细节。

5 Conclusion

在本文中，我们提出了新的FD-GAN，用于学习与人体姿势指导相关的身份相关和姿势无关的人物表征。新颖的Siamese网络结构以及新颖的损失确保框架为健壮的人reID学习更多姿势不变的特征。我们提出的框架在人员reID上实现了最先进的性能，而无需在推理期间使用额外的计算成本或额外的姿势信息。生成的人物图像也显示出比现有特定人物生成方法更高的质量。