CMTR: Cross-modality Transformer for Visible-infrared Person Re-identification

CMTR: Cross-modality Transformer for Visible-infrared Person Re-identification(CMTR:用于可见光-红外行人重识别的跨模态 Transformer )

期刊合集:最近五年,包含顶刊,顶会,学报>>网址
文章来源:ECCV 2022

研究背景

 现有基于 CNN 的方法存在缺陷:由于模态信息感知的不足,导致无法学习到良好的鉴别模态不变的身份嵌入,为了解决这个问题,文章提出了 CMTR 方法,能够明确地挖掘出每个模态的信息,并在此基础上生成更好的识别特征。具体来说,为了获取模态的特征,文章设计了新的模态嵌入,它与令牌嵌入融合在一起,对模态信息进行编码。此外,为了增强模态嵌入的表示,调整匹配嵌入的分布,提出了基于模态学习信息的模态感知增强损失,减小了类内距离,增大了类间距离。

论文分析

贡献点如下:

  1. 引入了可学习模态嵌入 (ME),它直接挖掘模态信息,可以有效地缓解异构图像之间的差距。

  2. 设计了一个新颖的模态感知增强 (MAE) 损失函数,该函数强制 ME 捕获每个模态的更多有用特征,并协助生成判别特征。

CMTR 网络框架

 评价指标:累积匹配特征曲线(CMC);平均均值精度(mAP);平均负逆惩罚(mINP)
 在输入图像之前,将红外图像的单通道重复了三次,使其包含三个通道。在训练过程中,使用到了数据增强策略:随机水平翻转和随机擦除。
在这里插入图片描述

Overall Network Structure( 整体网络结构)

在这里插入图片描述
1、输入嵌套
 作者通过步幅s (s < P) (软分割) 生成重叠的斑块,以增强相邻斑块之间的相关性,可以将patch重新塑造为形状为 在这里插入图片描述,原来是在这里插入图片描述

需要注意的是:斑块在被发送到 Transformer 之前,令牌嵌入序列与位置嵌入和设计模态嵌入 (ME) 融合在一起,外加一个额外的可学习 [class] 标记嵌入合并到序列中,以捕获整个图像的全局注意力。

2、特征提取
 设 I 和 F 为输入嵌入和特征提取的过程,图像向量的提取方法如下:
在这里插入图片描述
3、多重损失约束
 在多损失约束阶段,从训练批中获得的这些图像向量会经过批归一化( BN )层和全连接( FC )层。不同的层计算不同的损失,以生成对可见-红外模态不变的更具鉴别性的ID嵌入。

Visible-infrared Modality Embeddings(可见-红外模态嵌入 )

 感知情态特征有助于生成情态不变特征,所以在模型中引入了模态嵌入(ME) 模块,目的是学习和捕获每个模态的固有信息和特征。

 输入嵌入主要由三部分组成:token embeddings,position embeddings和modality embeddings。对于模态嵌入,每个模态中的图像与所有补丁共享相同的嵌入。

输入的嵌套阶段可表述为:

在这里插入图片描述
对于公式的理解:首先这个公式是由三部分组成的,第一个是令牌嵌入,第二个是位置嵌入,第三个是模态嵌入。位置嵌入在不同的斑块之间是不同的,模态嵌入在不同的图像的模态之间是不同的,用来感知不同类型的信息。

Modality-aware Enhancement Loss(模态感知增强损失 )

 使用模态嵌入让模态嵌入在语义上捕获了模态的特征,但约束相对较弱,不能完美指导模态学习。为了进一步增强 ME 学习模态信息的能力,并让学习到的 ME 帮助生成更有效的模态不变嵌入,提出了模态感知增强 (MAE) 损失。
在这里插入图片描述

  MAE 损失由两部分组成:模态感知中心损失( LMAC )和模态感知 ID 损失( LMAID ),旨在基于模态嵌入拉出类内特征和推入类间特征,表示如下:
在这里插入图片描述
  对于LM AC的定义,重点是减少同一身份下不同模态之间的差距,并利用 ME 学习的知识来缩小类内特征的距离。

在这里插入图片描述
 LMAC 的重点任务是减少同一身份下不同模态之间的差距,并利用 ME 学习的知识来缩小类内特征的距离。由以下公式表示:
在这里插入图片描述
其中,f mq,k表示从 q 身份的 k 个 m 模态图像中提取的特征。φm(·) 表示映射,用于挖掘模态嵌入em的知识,采用全连接层来实现。

在这里插入图片描述
让 f mq,k 减去φm(em) 其实是为了去除模态特定的信息,过滤掉模态不变的特征。

其中,f mq,c表示 q 身份的中心特征向量,为去模态后图像特征的均值。使用余弦距离D( · , ·)来测量图像特征与其中心特征向量之间的距离。通过模态感知中心损失 LM AC 的约束,我们的方法为每个身份提取更紧凑的跨模态特征。

模态感知 ID损失 ( LM AID ) 旨在学习不同身份之间的判别特征,它也是基于学习到的 ME 信息,中间也有一步要去过滤掉模态不变的特征,具体表示为:

在这里插入图片描述

Overall Objective Function(总体目标函数)

在这里插入图片描述

如上图所示,网络接受三种损失的约束,并对这些约束进行了联合优化。总体目标函数定义如下:
在这里插入图片描述

实验结果

在这里插入图片描述

在这里插入图片描述

交融实验:
在这里插入图片描述
 通过上表可以发现:MAE 约束损失存在较大的潜力,包含的 MAC 跟 MAID 有着巨大的互补性和潜力,通过第三行跟第四行结果显示,合理运用两层损失可以达到更好的性能。

总结

  在本文中,提出了应用于跨模态行人重识别的跨模态 Transformer (CMTR) 网络。通过引入模态嵌入 (ME),该模型可以直接感知每个模态的特征。此外,设计的模态感知增强损失 (MAE),它可以增强 ME 的学习能力,帮助生成更好的判别模态不变嵌入。

在这里插入图片描述
( a ) 是可见光源图像,( b ) 是红外光源图像,( c ) / ( d ) 是通过 Base 基线生成的 CAM 图,( e ) / ( f ) 是通过 Base+ME 生成的 CAM 图,不难发现,图像经过 Base+ME 操作之后,图像中的不变特征多了很多,轮廓信息也展示出来更多了。

在这里插入图片描述
不同的颜色代表不同的身份,实心方和空心圆分别代表两种模态图像。从图 (a) 到图 (b) 和图 ©, MAC 损失有助于缩小类内差异,而 MAID 损失有助于扩大类间差异。如 (d) 所示,当使用 MAE 损失时,嵌入具有较好的分布,类内距离紧凑,类间距离均匀较大。因此,MAE损失有助于生成更有效的检索嵌入。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
行人重识别(Person Re-Identification)是计算机视觉领域的一个重要任务,其目标是在不同的监控摄像头中准确地匹配和识别同一个行人。ResNet(Residual Network)是一种深度卷积神经网络结构,被广泛应用于图像分类、目标检测和行人重识别等任务。 行人重识别ResNet是基于ResNet网络结构进行改进和优化的,以适应行人重识别任务的需求。它通常包含以下几个关键组件: 1. 主干网络(Backbone Network):行人重识别ResNet使用ResNet作为主干网络,通过多层卷积和池化层来提取图像特征。ResNet的残差连接可以有效地解决深层网络训练中的梯度消失和梯度爆炸问题,提高了网络的性能和训练效果。 2. 全局平均池化(Global Average Pooling):在主干网络的最后一层卷积后,行人重识别ResNet通常会使用全局平均池化来将特征图转换为固定长度的特征向量。全局平均池化可以将特征图中每个通道的特征进行平均,减少了特征的维度,提高了特征的鲁棒性和泛化能力。 3. 降维和归一化(Dimension Reduction and Normalization):为了减少特征的维度和计算量,行人重识别ResNet通常会使用降维技术,如全连接层或卷积层,将特征向量映射到低维空间。同时,为了增强特征的判别能力,还会对特征向量进行归一化处理,如L2范数归一化或局部响应归一化。 4. 距离度量(Distance Metric):行人重识别ResNet使用距离度量方法来衡量不同行人之间的相似度或距离。常用的距离度量方法包括欧氏距离、余弦相似度等。通过计算特征向量之间的距离,可以进行行人重识别任务中的匹配和检索。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JJxiao24

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值