Self-Supervised Modality-Aware Multiple Granularity Pre-Training for RGB-Infrared Person Re-ID—通用范式

题目:elf-Supervised Modality-Aware Multiple Granularity Pre-Training for RGB-Infrared Person Re-Identification(RGB-红外人物再识别的自监督模态感知多粒度预训练)

期刊合集:最近五年,包含顶刊,顶会,学报>>网址
文章来源:

研究背景

 受到单模态 ImageNet 预训练带来的模态偏见训练问题的影响,产生了严重的跨模态图像检索的 RGB 偏见表示。本文首次尝试从训练前的角度来处理这项任务。作者提出了一种自监督的预训练方案,模态感知多粒度学习(MMGL),它仅在多模态 ReID 数据集上从头开始直接训练模型,但在不使用任何外部数据或复杂的调整技巧的情况下,与 ImageNet 预训练相比,可以获得有竞争力的结果。

论文分析

 第一,开发了一个简单但有效的 “排列恢复” 场景任务,该任务将随机混洗的 RGB-IR 图像对全局映射到共享的排列潜在置换空间中,为下游 ReID 任务提供模态不变的全局表示。第二,提出了一种局部感知循环对比(PCC)学习策略,该策略利用跨模态循环一致性来最大限度地提高语义相似的 RGB-IR 图像块之间的一致性,使得能够对不成对的多模态场景进行对比学习,进一步提高了局部特征的可分辨性,而无需费力地增加实例。基于这些设计,MMGL有效地缓解了模态偏误训练问题,实现了与 ImageNet 预训练相比具有竞争力的任务性能。

网络框架

在这里插入图片描述

A. Problem Formulation

跨模态任务的理解:给定一个查询集,包括了图像和图像对应的标签,通过一些手段去图库集检索出一个 ranking list,其中,查询集和图库集身份相等的排列到 top 的位置上,再使用归一化不计数累积增益(NDCG)之后,需要优化以下目标函数。整个过程是红外图像作为查询集去检索可见图像作为图库集。
在这里插入图片描述

B. Cross-Modality Permutation Recovery

作者用 在这里插入图片描述 来表示随机混洗的图像补丁序列的排序向量,该模块旨在学习用置换矩阵 P 重建其原始序列 O ,在数学上,P 属于 0-1 双随机矩阵的集合,其中第 i 行和第 j 列中的每个非零元素都表明当前第 i 个补丁应该分配到序列的第 j 位(可以理解为 P 是用来进行转置的矩阵)。表示如下:
在这里插入图片描述
然而,该问题的离散性可能会对模型优化提出巨大挑战,作者转而介绍了如何利用反向传播近似这个任务解决过程。

Ⅰ. Permutation Generation. (排列产生)

在这里插入图片描述

引入了一种模态共享混洗算子 在这里插入图片描述,它将随机组成的跨模态图像对 {Xrgb, Xir} 转换为它们的混洗对应物 在这里插入图片描述,假设混洗后的图像包含N个补丁,由从均匀分布中采样的阵列 [1,···,N] 的随机排列给出,这表示从原始补丁到其随机混洗补丁的映射。在每个跨模态图像对内共享了在这里插入图片描述,其将两个模态图像映射到公共排列子空间中。

Ⅱ. Permutation Recovery. (排列恢复)

在这里插入图片描述

将混洗后的图像映射到相应的亲和度矩阵,以恢复它们的原始阶数。这样的映射可以通过编码器 在这里插入图片描述
来拟合,编码器 F 具有将每个图像变换为 N 2 维度的特征表示的参数 Θ。对于混洗之后的补丁对,F 学习两个全局表示 frgb 和 fir ,使用共享的全连接层 G 将它们的尺寸减小到 N 2在这里插入图片描述,作者将 在这里插入图片描述 变换为 N×N 矩阵 在这里插入图片描述,其中每一行和每一列都可以被视为 logit 向量,表示补丁属于序列位置(即类别)的可能性。然而,很难将置换矩阵 P 与学习到的 在这里插入图片描述 直接拟合,因为每个补丁都是离散的,使得近似过程不可微。为此,作者引入 Gumbel-Sinkhorn 算子,将 在这里插入图片描述 松弛到连续域,以拟合分类分布。
Sinkhorn operator 定义如下:
在这里插入图片描述
其中,表示的是矩阵的行规范化和列规范化,在这里插入图片描述表示按元素划分,在这里插入图片描述是个的列向量,在这里插入图片描述是迭代次数。
基于 Sinkhorn 算子,可以用 Gumbel-Softmax 分布重新参数化排列矩阵的艰难选择,

在这里插入图片描述
这里 γ 表示从 Gumbel 分布采样的随机噪声,τ 是温度超参数。
在松弛了所学习的亲和矩阵 在这里插入图片描述 之后,可以通过反向传播逐渐接近基本事实 P,旨在最小化以下排列重建误差:
在这里插入图片描述

Ⅲ. Comparisons with Existing Work.

解拼图是排列恢复最相关的借口任务,直观地形成了一个更多样的特征空间。然而会出现与直觉相违背的结果,如下表:
在这里插入图片描述
一个可能的原因是,人物图像中的姿势变化可能会导致水平方向上的严重空间错位,使补丁在语义上毫无意义。此外,当前面向拼图的预训练主要集中于学习逐块表示,而忽略了补丁之间的上下文,这个问题的解决方案可以是引入补丁重叠,但这将不可避免地带来额外的计算成本。排列恢复直接将完整图像作为输入来编码上下文,经证明更强大、更高效。

C. Part-Aware Cycle-Contrastive Learning(PCC)

通过跨模态排列恢复,预训练的模型能够学习模态不变的生物特征(例如,形状和纹理),有利于模态对齐。然而,它可能会崩溃为低损失的解决方案,这阻碍了它学习所需的表示,例如,直接利用在补丁上连续的边界模式和纹理来解决任务。这种 “捷径” 会抑制类内的紧凑性,导致身份识别的模糊决策边界。

在这里插入图片描述

对比学习在学习辨别表征方面具有很好的能力。通过 “双裁剪增强” 策略,它最大限度地提高了同一图像的不同视图之间的一致性,以实现更好的类内紧凑性和类间可分辨性。尽管如此,由于 RGB-IR ReID 任务中异构图像的不成对性质,将现成的对比学习管道直接应用于多模态场景是不可行的。由于大多数扩充都是模态内的,它们也不能反映身份语义的跨模态相关性。PCC 采用软最近邻检索来生成正补丁对,而不是两个裁剪增强。每个图像补丁使用 PCB 样式的投影头将其映射到标准化的 256 维度表示中。在投影之后,引入一个前向-后向最近邻过程来捕获跨模态循环一致性。
给定一个查询表示 qi,首先从对应模态的通用表示集 U 导出其软最近邻 在这里插入图片描述。然后,在同一图像的补丁集内向后计算 在这里插入图片描述 的软最近邻。当两个检索到的软近邻相似时,满足循环一致性。检索过程定义为:
在这里插入图片描述
其中 τ 是温度,sim 是余弦相似度。

在基于相似性的前向-后向检索之后,将获得具有相似语义的跨模态补丁对 在这里插入图片描述 和两组检索到的表示 在这里插入图片描述
对于对比学习,将前者视为正对,而后者视为负对:
在这里插入图片描述
通过在推掉所有负对的同时将正对拉在一起,深度网络将学会发现语义相似身体分区之间的模态对应关系。这种明确的监督有助于异构图像的细粒度对齐,有助于将更好的模态不变性和判别能力转移到下游跨模态 ReID 模型。

由于编码器是用随机初始化预先训练的,PCC 可能在早期训练中生成随机正对,这将降低学习表示的判别能力。为了避免这种情况,需要一个惩罚术语来指导 PCC 检索用于正对生成的语义相似补丁。在这里,进一步在部分表示上施加交叉熵损失 Lcls,以预测每个补丁的排列标签。通过这种监督,鼓励同一身体部位的贴片在嵌入空间中更靠近,更有可能被视为正对。
在这里插入图片描述

D. Supervised Fine-Tuning for RGB-IR ReID

由于 MMGL 是一种基于损失函数的算法,它对编码器 F 的选择是不可知的,并且可以与任何 RGB-IR ReID 模型一起用作通用前端。在微调阶段,将 MMGL 预训练的主干转移到下游模型,并执行跨模态图像检索的监督学习。除此之外,还优化了不同方法的单位交叉熵损失 Lid、三重态损失 Ltriplet 和方法特定损失 Lspecific。总损失如下:
在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JJxiao24

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值