Learning Progressive Modality-shared Transformers for Effective Visible-Infrared Person Re-id

题目:Learning Progressive Modality-shared Transformers for Effective Visible-Infrared Person Re-identification(学习渐进模态共享变换器实现有效的可见红外人识别)

期刊合集:最近五年,包含顶刊,顶会,学报>>网址
文章来源:arxiv

研究背景

 可见红外行人再识别(VI-ReID)是一项在复杂模态变化下具有挑战性的检索任务。现有的方法通常侧重于从图像中提取有区别的视觉特征,而忽略了不同模态之间视觉特征的可靠性和共性。本文提出新的深度学习框架,称为渐进模态共享转换器(PMT)。为了减少模态间隙的负面影响,首先将灰度图像作为辅助模态,并提出了一种渐进学习策略。然后,提出了模态共享增强损失(MSEL)来指导模型从模态共享特征中探索更可靠的身份信息。最后,为解决类内差异大和类间差异小的问题,提出了与 MSEL 相结合的判别中心损失(DCL),以进一步提高可靠特征的判别能力。

论文分析

在这里插入图片描述
创新点:
1)深度学习框架(PMT),用于提取更稳健的模态共享特征。
2)模态共享增强损失(MSEL),用于增强不同模态之间所共享的特征,从而解决特征不可靠的问题。
3)判别中心损失(DCL),用于处理较大的类内差异,并进一步增强模态不变特征的判别能力。

网络框架

1、Progressive Learning Strategy(渐进式学习策略)

 尽管先前的权重共享结构可以捕获更多模态共享特征,但它们也容易受到模态特定噪声的影响。此外,在 ImageNet 上预先训练的权重通常对低级特征(如颜色或纹理)有更强的依赖性。因此,直接使用这些预先训练的模型可能会错过一些模态特定的信息。考虑到以上问题,作者设计了渐进式学习策略。其思想就是想通过灰度图像去除可见图像的颜色信息,它也有助于学习模态独立的判别模式。通过这种方式,可以有效地缓解模式差距过大带来的负面影响。

将各类图像(可见光、红外、灰度图像)馈送到权重共享Transformer F(·)中,分别得到它们对应的嵌入向量。

在这里插入图片描述

 为了减少模态特定信息的影响,提出渐进硬三元组损失(PHT)。与大多数 VI ReID 方法类似,在每个小批量中,随机选择 P 个身份,然后选择每个身份的 K 个可见光和 K 个红外图像。
损失定义如下:

在这里插入图片描述
y i 表示第 i 个身份的标签D(.)表示距离度量,m 是边界。

在这里插入图片描述
 如上图所示,将整个训练的过程分为两个阶段,在第一阶段,将灰度、红外图像作为输入,在每个模态中独立采样正样本和负样本。对于 L intra,该框架主要侧重于学习模态依赖的辨别模式,从而有效地缓解了可见光和红外模态之间的巨大差距所带来的负面影响。
 在第二阶段,将输入替换为可见、红外图像,以充分利用模态特定信息进行更细粒度的学习。有了 L global,该框架将不再区分不同的模式,只根据特征距离选择正样本和负样本。这可以保留原始图像信息,并允许模型受益于模态特定信息。

在这里插入图片描述

2、Modality-Shared Enhancement Los(模态共享增强损失)

 在真实场景中,可见光和红外图像之间存在很大的模态差异。因此,提取模态不变特征是至关重要的。如图4(a)所示,红色背包仅出现在可见模态中,因此过度依赖这些特征将导致跨模态检索失败。因此,作者引入 MSEL 来适当地抑制仅出现在一种模态中的不可靠特征,并提高可靠模态不变特征的利用率。
 为了实现上述目标,在一个小批量中探索所有样本的潜在信息。将红外和可见光模态的锚定特征分别表示为 f ir a 和 f vis a 。以 f ir a 为例。首先,计算其在同模态和跨模态下与其他阳性样本的平均距离,表示为:
在这里插入图片描述

然后,L MSEL 被定义为:
在这里插入图片描述
 在等式 7 中,L MSEL 惩罚 D intra 和 D cross 之间的差异。当判别特征仅出现在一种模态中时,它们之间的差异将增加,并且这种异常将被 L MSEL 捕获。在它们双向优化过程中,仅出现在一种模态中的不可靠特征将被抑制,而出现在两种模态中更可靠的特征将被增强,如图所示,它鼓励特征嵌入服从球形分布。
在这里插入图片描述

3、Discriminative Center Loss(判别中心损失)

 由于姿势、视角、照明等方面的典型变化,同一个人可能会出现较大的类内差异。它们大大增加了不同模态之间特征对齐的难度。为了解决这个问题,提出了一种判别中心损失(DCL)来利用中心实例之间的实例关系,并增强可靠模态共享特征的判别能力。
首先,为了获得每个身份的鲁棒表示,通过以下方式计算两种模态下的特征中心:
在这里插入图片描述
这里,c yi表示第 y 个身份的特征中心。然后计算c yi到所有其他负样本的平均距离作为动态裕度,可以表示为:
在这里插入图片描述
最后,LDCL定义为:

在这里插入图片描述
通过最小化等式 10,类内紧致性和类间可分性将得到改善。图 5(b)显示了 DCL 的几何示意图。L DCL 的利用有两个主要优点:1)它可以利用模态特定的特征,并比 中心-中心解决方案 捕获更多的潜在关系。2) 通过d neg yi 的动态采样可以有效地集中在相对困难的示例上。其有效性将通过实验加以验证。

Overall Objective Function

对于模型训练,我们采用混合损失函数作为渐进学习框架。在第一阶段,利用身份损失 L ID 和 L Intra 来学习模态独立特征:
在这里插入图片描述
在第二阶段,进一步用 L MSEL 提取可靠的模态共享特征,并用 L DCL 增强判别能力。损失函数可以定义为:
在这里插入图片描述
这里,参数 λ1 和 λ2 分别用于平衡 L MSEL 和 L DCL

实验结果

在这里插入图片描述
在这里插入图片描述

总结

 在本文中,我们提出了一种新的基于深度学习的框架PMT,该框架通过充分挖掘可靠的模态变量特征,有效地提高了VI ReID的性能。以灰度图像作为辅助模态,我们的框架通过渐进学习策略缓解了RGB-IR模态之间的巨大差距。同时,我们提出的MSEL和DCL可以有效地提取更可靠和更具判别力的特征,带来更强的性能和鲁棒性。此外,所提出的方法具有很好的推广性。通过将我们的方法应用于基于CNN的主干网,它们也可以带来显著的性能改进。在两个公共VI ReID基准上的实验结果验证了我们提出的框架的有效性。未来,我们将探索更有效的Transformer结构,以进一步提高特征表示能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JJxiao24

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值