摘要:近年来,基于卷积神经网络( CNN )的行人重识别( reID )取得了良好的效果。然而,大多数现有的基于CNN的方法没有充分利用时空上下文建模的优势。事实上,全局时空上下文可以极大地澄清局部干扰,以增强目标特征表示。为了综合利用时空上下文信息,在这项工作中,我们提出了一种新的块,交互-聚合-更新( IAU ),用于高性能的行人重识别。首先,介绍了时空IAU ( STIAU )模块。STIAU将两种类型的上下文交互联合纳入一个CNN框架,用于目标特征学习。在这里,空间交互学习计算上下文。此外,设计了一个通道IAU ( Channel IAU,CIAU )模块来建模通道特征之间的语义上下文交互,以增强特征表示,特别是对于小规模的视觉线索和身体部位。因此,IAU块使特征能够融合全局的空间、时间和通道上下文。它是轻量级的,端到端的可训练的,并且可以很容易地插入到现有的CNN中,形成IAUnet。实验表明,IAUnet在图像和视频的reID任务上都取得了较好的性能,并且在一般的物体分类任务上取得了令人信服的结果。
Figure1:( a )输入图像和激活图的配对[ 9 ]。最受关注的是上衣。然而,对于这两个人来说,它们是无法区分的。( b )在空间上下文建模中,不同的身体部位与空间上下文知识相互作用并聚合形成结构特征。在这里,上半身特征可以自适应地更新,以区分两个人。( c )在时间上下文建模中,帧与帧之间进行交互和聚合,生成具有时间上下文信息的特征。有了时间上下文,误检帧的损坏可以得到缓解。
本文的贡献总结如下:
1 )我们提出了一个同时适用于图像和视频行人重识别的统一网络IAUnet;