摘要:可见光-红外行人重识别(VI-ReID)是一项具有挑战性的跨模态行人检索问题。由于类内差异大、跨模态差异显著且存在大量样本噪声,学习具有区分性的部分特征变得十分困难。现有的VI-ReID方法倾向于学习全局表征,但这些表征的区分能力有限,对噪声图像的鲁棒性较弱。在本文中,我们提出了一种新颖的动态双重注意力聚合(DDAG)学习方法,通过挖掘单模态的部分级和跨模态的图级上下文线索来解决VI-ReID问题。我们提出了一个单模态加权部分注意力模块,通过将领域知识应用于部分关系挖掘,以提取具有区分性的部分聚合特征。为了提高对噪声样本的鲁棒性,我们引入了跨模态图结构注意力,利用两种模态之间的上下文关系来增强表征。我们还开发了一种无参数的动态双重聚合学习策略,以渐进式联合训练的方式自适应地整合这两个组件。大量实验表明,在各种设置下,DDAG方法的表现均优于目前最先进的方法。
图1 针对VI-ReID提出的DDAG学习框架。IWPA(单模态加权部分聚合):通过挖掘每个模态内的上下文部分关系,学习具有区分性的部分聚合特征。CGSA(跨模态图结构注意力):利用两种模态之间的邻域结构关系进行全局特征学习。我们还引入了一种无参数的动态双重聚合学习策略,以自适应地整合这两个组件。
主要贡献:
(1)提出了一种新颖的动态双重注意力聚合学习方法,旨在挖掘单模态部分和跨模态图级别的上下文信息,以促进可见光-红外行人重识别(VI-ReID)的特征学习。
(2)设计了一个单模态加权部分注意力模块,用于学习具有区分性的部分聚合表征,并自适应地为不同的身体部分分配权重。
(3)引入了一种跨模态图结构注意力方案,通过挖掘两种模态下人物图像之间的图形关系来增强特征表征,从而平滑训练过程并缩小模态差距。
原论文:Search | arXiv e-print repository
代码:https://github.com/mangye16/DDAG
IWPA模块
作为现有VI-ReID方法[7,49,50]中全局特征学习的替代方案,本小节提出了一种新颖的VI-ReID部分聚合特征学习方法,即单模态加权部分聚合(IWPA,如图3所示)。IWPA挖掘局部部分的上下文信息,以形成增强的部分聚合表征,从而应对复杂的挑战。它首先使用改进的非局部模块学习模态内的部分注意力,然后使用带有残差批量归一化(RBN)的可学习加权部分聚合策略来稳定和强化训练过程。
将上述提出的单模态加权部分注意力和跨模态图结构注意力融入一个端到端的联合学习框架中极具挑战性。这主要是因为这两个组件具有非常深的网络结构,且关注不同的学习目标,直接简单地将它们组合在一起,在经过几个步骤后很容易导致梯度爆炸问题。此外,在VI-ReID中,由于跨模态差异巨大,同一身份在两个模态下的特征差异也很大,如图1所示。因此,在初期阶段,由于两个模态之间的特征差异巨大,图结构注意力会很不稳定。
为了解决上述问题,我们引入了一种动态双重聚合学习策略,以自适应地整合上述引入的两个组件。具体来说,我们将整体框架分解为两个不同的任务:实例级部分聚合特征学习LP和图级全局特征学习Lg。实例级部分聚合特征学习LP是基线学习目标Lb和单模态加权部分注意力损失Lwp的组合,表示为
具体的可以去源论文看
下载代码之后,更改路径
先运行pre_sysu_processing.py生成把sysu-mm01数据集转成.npy格式,源代码没这个文件,可以去AGW里面下载
再输入
python train_ddag.py --dataset sysu --lr 0.1 --graph --wpa --part 3 --gpu 0
运行过程
总共80epochs