Cross-Modality Person Re-identification with Memory-Based Contrastive Embedding

题目:Cross-Modality Person Re-identification with Memory-Based Contrastive Embedding(基于记忆对比嵌入的跨模态人物再识别)

期刊合集:最近五年,包含顶刊,顶会,学报>>网址

摘要

 由于模态之间存在差异,VI-ReID 变得更具挑战性,即阶层间的混乱(模态之间)和阶层内的变化(如姿势、视点、光照、背景聚类、遮挡等)。作者提出 基于聚合记忆的跨模态深度度量学习 框架,该框架受益于越来越多的学习模态感知和模态不可知的质心代理,用于聚类对比和互信息学习。此外,为了抑制模态差异,同时利用历史和最新学习的聚类代理来增强跨模态关联。这种训练机制通过增加学习到的聚类代理的多样性来获得硬正参考,最终实现跨模态图像特征之间更强的“拉紧”效果。

论文分析

网络框架

在这里插入图片描述

1、Problem Definition(模态预处理)

这都是常规操作:① 在这里插入图片描述 代表可见光和红外模态的图像,在这里插入图片描述 表示可见和红外全部图像数,在这里插入图片描述 对应相应的真实标签(ground-truth)。

  任务: 给定某一模态的查询人物图像,跨模态人物ReID任务的目的是根据学习到的图像特征相似度,检索具有相同身份的另一模态的行人图像。

在这里插入图片描述作为对应可见光图像的第 i 个提取特征。

  CNN 架构由基于记忆的模态感知和模态不可知聚类对比目标、跨模态互信息约束和全局模态不可知聚类对比目标共同优化。

③ 文章还利用通道增强策略进行数据增强,通过随机 交换可见光 图像的颜色通道生成新的辅助模态(看这篇文章: Channel augmented joint learning for visible-infrared recognition),记作 在这里插入图片描述在这里插入图片描述
对应的特征向量记为 在这里插入图片描述,与可见光图像特征向量保持维度一致。

2、Learning Modality-Aware and Modality-Agnostic Proxies(学习模态感知和模态不可知代理)

 基于 vallina 记忆的聚类对比学习(Cluster contrast for unsupervised person re-identification),最重要的组成部分是基于聚类的记忆库,其中每个聚类由平均特征向量 W m (也表示为聚类中心) 表示,所有聚类特征向量都基于单个特征更新。第 k 类的聚类质心初始化如下:

在这里插入图片描述
对 RGB 模态的聚类存储库 W m ∈ R d×N p 进行初始化,提取每个聚类的特征向量均值,其中 d 和 N p 分别表示特征维数和身份/聚类个数。在这里插入图片描述 表示 RGB 特征空间中属于第 k 类的训练图像的子集,|·| 表示聚类集中的实例数。在模型训练过程中,使用相应的聚类特征向量更新存储在记忆库中的聚类质心。

然后,基于记忆库的聚类对比学习可以导出,它也是一个分类器。
在这里插入图片描述

在这里插入图片描述
同样得到 红外损失,数据增强模态的损失,
最终损失合在一起:
在这里插入图片描述

3、Cross-Modality Mutual Information(模态互消息)

 为增强模态关联,同时抑制模态差异,作者提出跨模态互信息约束。前一阶段已经分别学习了每个模态的单位质心。也就是说,存储在记忆库中的质心只从它们对应的模态中学习知识。因此,给定一个行人图像特征 (记为f),无论它属于哪个模态,如果它在不同模态中相对最近的质心对应相同的同一性,则意味着模型提取了模态共享的图像特征,消除了模态的差异。

基于学习到的不同模态的图像质心,将得到的图像特征 在这里插入图片描述 转化为概率形式。

在基于记忆的聚类对比学习中,观察到可以从历史学习的聚类质心中获益更多。由于一些历史聚类质心相对于记忆库中最新动态学习的质心距离模态/身份边界较远,这可能导致对对应模态分布的 “拉近” 效应增强。因此,使用前一个 epoch 结束时学习到的质心作为分类器,从而使下一个训练 epoch 的质心参数始终保持固定。

RGB 模态的质心 在这里插入图片描述,输入特征 在这里插入图片描述 在聚类质心下的概率表示:

在这里插入图片描述

相应的,下面也成立。

在这里插入图片描述

 这里作者做了前提条件,历史聚类质心参数与存储在最新内存库中的质心是不同的,尽管它们都可以代表恒等式的聚类中心。历史聚类质心 C = {Cv, Cr, Ca, Cu} 通过其自身模态空间中同一 同一性内的特征向量的均值计算,其中特征向量由前一个训练历元结束时获得的模型提取。通过 Kullback-Leibler 散度计算,RGB 模态和 IR 模态之间的概率,
在这里插入图片描述

显然,该目标函数鼓励 RGB 模态中的输入特征向量 在这里插入图片描述 在其原始 RGB 模态质心和 IR 模态质心上都具有一致性的概率,而另一 IR 模态中的输入特征则相反。通过这种方式,可以鼓励模型在不同模态之间学习知识,并进一步学习与模态无关的特征。

辅助模态数据是通过通道增强策略由相应的 RGB 模态数据生成的,同样需要建立辅助模态与 IR 模态之间的互信息约束,抑制模态差异。
整体的跨模态互信息约束如下:
在这里插入图片描述

4、Global Modality-Agnostic Cluster Contrast(全局模态不可知聚类对比)

 为进一步抑制模态差异,在已学习的历史模态不可知聚类质心 C u 的基础上,提出了全局模态不可知聚类对比学习。目标函数可表示为:
在这里插入图片描述
在这里插入图片描述 是习得的历史模态不可知的聚类质心。在这里插入图片描述 为特征 在这里插入图片描述 对应的正质心,α 是正距离和最小负距离之间的最小裕度参数。通过最小化上述损失函数,可以以整体模态不可知的方式抑制模态差异。

5、Overall Objective Function

 提出的方法结合模式感知和模式不可知,以及历史和最新的基于记忆的聚类对比学习,以实现有效的特征级模式对齐。

在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 17
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
跨模态融合变压器用于多光谱目标检测是一种先进的目标检测方法。多光谱图像由不同波段的传感器捕获,每个波段提供了目标的不同特征信息。传统的目标检测算法往往局限于单一光谱波段,无法在多光谱图像中有效提取目标信息。而跨模态融合变压器能够将不同波段的光谱信息融合,并在融合后的特征上进行目标检测,从而提高目标检测的准确性和鲁棒性。 跨模态融合变压器结合了Transformer模型和跨模态融合方法。Transformer模型是一种基于自注意力机制的神经网络架构,能够有效地建模长距离依赖关系。它将目标的特征信息转化为一系列的注意力权重,然后利用这些权重来对不同波段的特征进行加权融合。这种融合方式可以将信息从一个波段传递到另一个波段,使得各个波段的特征能够共同影响目标检测结果。 跨模态融合变压器还引入了多尺度的注意力机制,以适应不同尺度目标的检测需求。它通过在特征提取的过程中引入多个不同大小的注意力窗口,来对不同尺度的目标进行建模。通过这种方式,跨模态融合变压器能够在多光谱图像中准确地检测到各种尺度的目标。 总之,跨模态融合变压器是一种能够融合不同波段特征并进行多光谱目标检测的先进方法。它的引入可以提高目标检测的准确性和鲁棒性,适用于各种需要从多光谱图像中提取目标信息的应用场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JJxiao24

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值