Deep-Person: Learning Discriminative Deep Features for Person Re-Identification

Paper:http://www.vlrlab.net/admin/uploads/avatars/Deep-Person_Learning_Discriminative_Deep_Features_for_Person_Re-Identification.pdf

Code:https://github.com/zydou/Deep-Person

 

摘要:近年来,很多Re-ID方法依赖于学习显著的行人描述符的基于局部行人表示的方法。但是,对于这些分离的局部之间的空间上下文关系却被忽视了。在这篇论文中,我们提出将LSTM以端到端的方式用于模拟行人,将其视为一个从头到脚的身体部分序列。语义信息的整合增强了局部表示的识别能力。我们还利用了局部和全局特征之间的互补信息。在此基础上,我们同时学习显著的特征和相似性度量以此将分类和排序任务集成到一个网络中。这就产生了一个新的三分支框架,称为Deep-Person,它可以学习具有高度区分性的行人特征。实验表明此方法在公开数据集上实现了SOTA。特别的,在Market-1501上,Re-ranking后mAP可以达到90.84%。

 

知识点解析:1):Deep-Person概述。我们提出的Deep-Person模型既关注特征表示,又关注特征学习。它是建立在两种互补设计的基础上,具体如下:1):全局表示和局部表示。2):基于Softmax的分类分支和基于三元组损失的排序分支。

     最近在Re-ID方面的进展依赖于深度学习来学习行人的显著特征。如【17】指出,全局特征表示学习更关注整体信息,比如姿势和形状。然而,在某些情况下,只有身体的某些部分,如头部、上身或下身,才能完成正确的行人匹配。在这中意义上,基于行人局部表示是对全局表示的补充。我们提出使用基于LSTM的RNN来自然的对行人身体各个部分之间的空间依赖关系进行建模,可以将其看作是一个从头到脚的身体部分序列。希望将互补的全局表示和基于LSTM的局部表示相结合,能够增强学习到的行人特征的显著性。

     最近,大多数基于深层网络的Re-ID方法的相似部分是基于Softmax的分类分支,此分支根据学习到的深层特征来区分不同的ID。分类任务的目标和行人Re-ID的训练目标是不一致的,行人Re-ID的目标是将query与gallery中的图像进行一一配对。这是因为分类分支没有明确的学习行人Re-ID所需的相似性度量。最近,正如【22】所倡议的,带有三元组损失的排序分支有助于学习一对图像之间的相似性。在此意义上,具有三元组损失的分类分支和距离排序分支构成了另一种互补关系。

    我们提出的深度Re-ID模型利用上述两种互补特征。总体架构如图2所示。它主要由两个部分组成,1):学习共享低层特征的主干网络,大小为:C*H*W。2):学习具有高度辨识度的行人表示的多分支网络,主要得益于三个分支的互补特征,a):基于局部的分类分支 b):基于全局的分类分支 c):使用三元组损失的距离排序分支。采用联合学习策略,同时优化每个分支的特征表示和发现相关的互补信息。

 

2):Part-Sequence Learning Using LSTM:在许多方法中【8, 27, 33】已经表明,基于局部的特征表示对行人Re-ID是有用的。大多数基于局部的方法大致上将提取的提取的行人表示分解为预定义的刚体部分(见图1),这些部分分别与头部、肩部、上身、上肢和小腿近似对应。然后将每个分每一个分割的局部输入到一个单独的分支中,以学习相应的局部特征。在某些情况下,这可能会产生有趣的结果。但是,每个局部的独立过程忽略了不同局部之间的空间依赖关系,这对于学习行人Re-ID的判别特征是有帮助的。此外,由于姿态变化、不准确的行人检测和遮挡等,这种分解会在相同ID的不同图像之间存在潜在的失调。图 1给出了一些例子。

     我们注意到,图像中的行人可以分解为从头到脚一系列身体部位。虽然在不同的图像中,每个部分并不总是处于相同的位置,但由于身体结构的先验知识,所有的行人局部都可以按顺序建模。行人的序列化表示自然促使我们利用基于LSTM的RNN。带有LSTM单元的RNN在图像字幕、机器翻译和语音识别等基于序列的问题中得到了广泛应用。LSTM在图像分类和目标检测方面也显示出了巨大的潜力,LSTM可以对空间依赖关系进行建模并捕获更丰富的上下文信息。得益于内部的门控机制,LSTM可以控制从当前状态到下一个状态的信息流。因此,LSTM单元有能力传播某些相关的上下文信息并过滤到一些不相关的部分。基于以上观点,我们建议采用LSTM对人体各部位进行序列化建模。更具体地说,为了获得空间上下文信息,我们直接从共享的底层特征中提取一个特征向量序列f_{b},而不进行任何显式分割。如图2所示,f_{b}的每一行都经过一个水平平均池化,从而得到相应长度为C的特征向量。如图3所示,每个特征向量在原始图像中描述一个矩形区域,该区域由图像中相应区域的感受野给出。一个在此基础上建立了两层双向的LSTM序列。基于LSTM的上下文建模,每个长度为U的结果特征向量可以更好的描述其相关部分。最后,表示底层局部的所有结果特征向量被连接在一起,作为最终的基于局部的行人表示。

3):Global Representation Learning:基于局部的特征更侧重与行人的判别细节。仅使用基于局部表示很难区分两个具有非常相似的视觉细节的不同身份(如,穿着相同的衣服)。在这种情况下,需要姿态和形状信息来区分他们。实际上,全局特征是对基于局部特征的补充,并且更多的高层语义,如姿态和形状。与很多用于Re-ID的深度神经网络类似,我们通过在共享底层特征f_{b}之后插入一个全局平均池化和全连接层来提取全局表示。

 

4):Deep Metric Learning with Triplet Loss:在上述两个章节中描述的基于局部和全局表示的学习没有明确地学习测试期间Re-ID所需的相似性度量。我们提出了Deep-Person模型的第三个分支,负责距离排序。为此,我们在共享的底层特征f_{b}上应用全局平均池化,从而在度量空间中产生一个用于相似度计算的特征f_{m}。特征f_{m}也被用于Re-ID的最终行人描述符。更具体的说,我们采用【14】中改进的三元组度量损失。其主要思想是随机抽样形成batch = P*K抽样P个ID,然后随机每个ID中抽K个图像,从而组成一个Batch=P*K的图像。

     由于困难三元组挖掘策略对基于三元组损失的学习至关重要,因此对于每个anchor,只选取mini-batch中最困难的正负样本,形成三元组进行损失计算:

                                  

Conclusion:

本文提出了一种新的三分支框架——Deep-Person框架,用于学习人的深层特征。与现有的特征表示方法和单纯的特征学习方法不同,本文从深层次考虑了两者的互补优势。具体而言,采用局部特征和全局全身特征相结合的方法。利用分类损失和排序损失,同时学习判别嵌入和相似度度量。此外,与现有的基于零件的方法通常放弃身体结构的空间上下文相比,我们使用LSTM增强了零件表示与上下文信息的识别能力,减轻了与序列级行人表示的不一致。对三个流行的和有挑战性的数据集的广泛评估表明,与最先进的方法相比,提出的深度人的优越性。未来,我们希望将空间上下文建模与注意机制相结合,自动为人的识别选择更多的鉴别部分。

 

周郎有话说:这是2017年的论文,现在看确实有点滞后。但是利用LSTM引用局部块之间的关系,确实值得学习。接下来还会写一篇探究局部块之间关系的论文。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值