1、问题
跨模态行人重识别面临可见光和红外两个模态巨大差异的挑战,传统的跨模态行人重识别有两种实现方式,一种是都是提取全局特征进行约束,减小两种模态下全局特征的差异,从而提高跨模态行人重识别的准确率,还有一种是利用GAN网络生成新的特征表示,这个也是基于全局特征。全局特征存在一个巨大缺陷,即容易受到背景的干扰。单模态行人重识别有许多基于局部特征的鉴别方法,但是这些方法难以跨越不同模态的巨大差异,因此,本文提出了一种双注意力学习的方法应用到跨模态行人重识别任务中。
2、思想
本文为了获得局部鉴别特征,应用了attention机制,提出了一种新的dynamic dual-attentive aggregation (DDAG) 的方法。该方法首先利用backbone提取可见光图像和红外图像的特征,然后分成两路,利用两个attention机制分别获得同一模态内的图像的局部特征和跨模态的鉴别特征,这两个attention机制即intra-modality weighted-part aggregation (IWPA)和cross-modality graph structured attention (CGSA)。IWPA通过计算局部块的attention训练一个共享权值,从而获得局部鉴别特征,CGSA以同模态或不同模态的相同身份的图像特征作为节点构造图结构,利用图结构的关系获得跨模态的全局鉴别特征。
3、方法
3.1、Baseline Cross-Modality Re-ID
本文提出的DDAG方法的结构如下图所示,将可见光图像和红外图像分成两条支路进行特征提取,backbone采用的是ResNet-50,backbone的最后四层采用权值共享的方式,前面部分分别提取可见光图像和红外图像的特征,在在最后四层采用权值共享的方式使得不同模态下的图像能够提取一些共享的特征。然后采用和PCB一样切块方式,将一张图像分成P块,然后对每一块进行全局平均池化,得到P*2048的特征向量。
特征提取部分采用identification loss和triplet loss进行监督,identification loss可以获得行人的分类,triplet loss可以增大不同行人样本特征的距离,总的loss为:
3.2、Intra-modality Weighted-Part Aggregation
IWPA的结构如下图所示。
首先对输入的特征向量经过三个不同的线性变换,得到v、u 和z:
然后用点乘的方式获得两个不同块之间的关系:
再计算每一个块的attention权值:
将attention权值与z相乘得到attention 特征:
初始化一个权值矩阵,与attention特征相乘,再加上输入特征向量经过全局平均池化和BN层得到的特征向量即可得到IWPA模块的输出:
由于这个设定的权值矩阵是共享的,无论计算可见光图像还是红外图像的的attention,都会对这个权值矩阵进行更新,因此,IWPA在获得图像局部特征的同时,对于减小不同模态的差异起到一定作用。
3.3、Cross-modality Graph Structured Attention
CGSA借鉴了GAT的思想,以同模态或不同模态的相同身份的图像特征作为图节点构造图结构,每一个节点的邻居都为相同身份的图像,利用图结构对图节点加attention,能够获得相邻节点的可靠关系,从而减小不同模态的差异。在CGSA中,首先选取n个身份,每个身份有m张可见光图像和m张红外图像。对经过backbone输出的特征向量进行全局平均池化,得到一个112048的特征向量,把每一张图像的特征向量当作一个图的节点构造图结构,一共有k=2nm个节点,计算各个图节点之间的attention值:
其中h(.)为一个线性变换矩阵,降低特征向量的通道维度为256,w为一个可学习的权值矩阵,该公式同时进行了归一化处理。
为了提高鲁棒性,引入了multi-head attention,即初始化不同的权值计算多个attention,然后将所有head的attention contact在一起,attention加到节点上,然后进行非线性激活。
采用一个negative loglikelihood (NLL) loss来监督图attention的学习:
3.4、Dynamic Dual Aggregation Learning
由于局部聚合特征学习和跨模态全局特征学习的目标不同,两个部分联合优化是困难的。本文提出了一种动态的双注意力机制聚合学习策略,即联合学习局部聚合特征的损失Lp和跨模态全局特征损失Lg。
Lp联合了baseline特征提取loss Lb和局部加权attention loss Lwp,表示为
动态地聚合两种loss:
4、实验
本文采用了SYSU-MM01和RegDB两个数据集进行实验,实验结果如下所示