摘要:近年来,基于卷积神经网络( CNN )的行人重识别( reID )取得了良好的效果。然而,大多数现有的基于CNN的方法没有充分利用时空上下文建模的优势。事实上,全局时空上下文可以极大地澄清局部干扰,以增强目标特征表示。为了综合利用时空上下文信息,在这项工作中,我们提出了一种新的块,交互-聚合-更新( IAU ),用于高性能的行人重识别。首先,介绍了时空IAU ( STIAU )模块。STIAU将两种类型的上下文交互联合纳入一个CNN框架,用于目标特征学习。在这里,空间交互学习计算上下文。此外,设计了一个通道IAU ( Channel IAU,CIAU )模块来建模通道特征之间的语义上下文交互,以增强特征表示,特别是对于小规模的视觉线索和身体部位。因此,IAU块使特征能够融合全局的空间、时间和通道上下文。它是轻量级的,端到端的可训练的,并且可以很容易地插入到现有的CNN中,形成IAUnet。实验表明,IAUnet在图像和视频的reID任务上都取得了较好的性能,并且在一般的物体分类任务上取得了令人信服的结果。
Figure1:( a )输入图像和激活图的配对[ 9 ]。最受关注的是上衣。然而,对于这两个人来说,它们是无法区分的。( b )在空间上下文建模中,不同的身体部位与空间上下文知识相互作用并聚合形成结构特征。在这里,上半身特征可以自适应地更新,以区分两个人。( c )在时间上下文建模中,帧与帧之间进行交互和聚合,生成具有时间上下文信息的特征。有了时间上下文,误检帧的损坏可以得到缓解。
本文的贡献总结如下:
1 )我们提出了一个同时适用于图像和视频行人重识别的统一网络IAUnet;
2 )制定STIAU块学习上下文感知特征;它设计了能够有效捕获远程和全局上下文的交互和聚合操作;
3 )我们提出了一个CIAU模块来建模特征通道之间的上下文交互。它可以通过聚合语义相似的特征来进一步增强特征表示。据我们所知,我们是第一个联合利用reID中的空间、时间和通道上下文的人。在5个reID基准上的实验表明了所提方法的优越性。
STIAU Module:
目标行人序列的时空上下文对于视频行人重识别至关重要。然而,现有的大多数方法要么缺乏对长距离空间上下文关系的建模能力,要么忽略了时间上下文知识,从而导致对分散的对象高度敏感。为此,我们设计了一个STIAU模块,与目标人物序列的时空上下文形成结构化表示
我们首先使用一个部件划分单元来提取每一帧的部件特征。部件特征与不同的身体区域相关联,即头部、上半身、下半身和鞋子。然后,我们将零件特征输入到三个顺序操作中:交互,聚合和更新。交互操作显式地建模部件之间的依赖关系,以产生时空关系图。考虑了两类关系:空间关系和时间关系。然后使用生成的关系图在接下来的聚合操作中聚合相关的部分特征,产生时空上下文特征。最后,在更新操作中利用上下文特征,获得具有时空结构信息的特征。
1 )交互操作:如图2所示,零件划分单元以视频特征图F为输入,生成对应的视频零件特征P∈RT × N × D,其中N为每帧零件的个数。零件划分单元的详细情况将在后文描述。为了对目标人物序列进行时空上下文建模,交互操作在T帧之间建模N个部分之间的全局上下文关系,同时具有空间关系和时间关系。
2 )聚合操作:为了在交互操作中利用R,我们遵循聚合操作,即基于关系图对输入的视频部分特征进行聚合。如图1所示,我们首先将P重塑为RTN × D,然后在R和P之间进行矩阵乘法,得到时空上下文特征Z S∈RTN × D
3 )更新操作:利用时空上下文特征,我们可以使用一个部件更新单元来计算更新后的部件特征。它将初始部件特征P和部件上下文特征Z S进行融合,产生适应特征( P∈RT × N × D )
4 )部件划分单元:为了开发STIAU模块的局部部件特征,首先需要对不同身体部位的区域进行定位。现有的方法[ 28 ],[ 29 ],[ 33 ],[ 50 ]通常使用外部的部件检测网络,使得reID框架过于复杂和耗时。相比之下,我们采用了一个简单且轻量级的空间注意力子网来定位身体部位。特别地,以视频特征F作为输入,子网使用卷积层产生与不同身体部位相关的注意力图A∈RT × H × W × N
5 )关于空间关系图生成的讨论:在最初的会议论文[ 16 ]中,空间关系图是通过对固定空间位置的特征之间的语义相似性进行建模生成的。也就是说,特征图中的每个位置都与其他所有位置相连,并获得语义相似的上下文信息。然而,有两个主要的限制。一方面,Hou等人[ 16 ]使用语义相似度作为相关度。一般而言,属于同一身体部位的特征比属于不同身体部位的特征具有更高的语义相似度。因此,Hou等人[ 16 ]倾向于将属于不同部位的位置赋予相当低的相关性,从而导致缺乏对不同身体部位之间的依赖关系进行建模的能力。另一方面,Hou等人[ 16 ]需要生成一个庞大的关系图来度量其输入的所有位置对的语义相似性。时间和空间复杂度均为O( HW × HW),其中H和W分别表示输入特征图的高度和宽度. 因此,当输入特征图的分辨率较高时,SIA [ 16 ]的计算复杂度较高,并且占用大量的GPU内存。在提出的用于图像reID的空间IAU ( SIAU ) ( 1 )中,空间关系图是通过建模不相交和遥远的身体部位之间的上下文依赖关系生成的。
SIAU具有以下优点:
1 )能够对不同身体部位之间进行高层次的上下文建模。与[ 16 ]主要对身体部分内的依赖关系进行建模不同,SIAU使用子网络来预测不同部分之间的相关性,以捕获更高层次和更远距离的空间上下文依赖关系。如图1 ( b )所示,对于局部身体部位看似相似的两个行人,长时间的空间上下文可以极大地帮助澄清局部混淆,从而提高性能
2 )计算效率高,对GPU内存友好。对身体部位之间的关系进行建模,大大降低了从O( HW × HW)到O( N × N)的时间和空间复杂度,其中N ( NHW )为每幅图像中提取的身体部位个数。
CIAU Module:
现有的基于CNN的方法通常堆叠多个卷积层来提取行人的特征。随着层数的增加,小尺寸的车身部件(例如,鞋子)容易褪色。然而,这些小尺度部分对于区分具有微小类间差异的行人对非常有帮助。Zhang等人[ 52 ]指出,大多数高层特征的通道图对特定部位表现出强烈的响应。受他们观点的启发,我们构建了CIAU模块来聚合视频特征图中所有通道的语义相似的上下文特征。通过融合来自其他通道图的特定部位信息,CIAU可以增强该身体部位的特征表示。
1 )交互操作:如图3所示,CIAU模块以视频特征图F作为输入。在交互阶段,CIAU显式地建模F不同通道之间的语义上下文关系,以产生通道关系图。为此,我们首先对F进行置换,将其重塑为RTD × HW,然后将F与F的转置进行矩阵相乘,并对结果进行归一化处理,得到信道关系图C∈RTD × TD。
2 )聚合操作:基于信道关系图,在接下来的聚合操作中对信道特征进行聚合。具体来说,在C和F之间进行矩阵乘法,以获得聚合特征图Z C∈RTD × HW
3 )更新操作:使用通道更新单元,基于聚合后的特征图计算更新后的通道特征EC∈RT × H × W × D。它由一个简单的卷积层EC = Wcu⋅Z C + bcu实现
Figure5: 面向视频重识别的IAUnet体系结构。SP和TP分别表示空间池化和时间池化。当序列T中的帧数等于1时,该架构可用于图像重识别。
结果:
与1501市场和Dukemtmc的比较。将方法分为3组:手工方法( H )、仅使用全局特征的深度学习方法( G )和使用零件特征的深度学习方法( P ),其中*表示测试时需要辅助零件检测的方法
总结:在本文中,我们提出了一个用于全局上下文建模的IAU块,该块可以通过交互、聚合和更新操作有效地实现。IAU块在统一的框架下联合建模时空和信道上下文。我们表明,通过精心设计STIAU和CIAU,所提出的IAUnet在一些数据集上的图像和视频reID任务上都取得了最先进的结果。在未来,我们打算探索一种更先进的度量学习方法来进一步提高性能。此外,我们计划研究IAU块在行人重识别和物体分类之外的应用,例如图像和视频分割。