Modality Unifying Network for Visible-Infrared Person Re-Identification论文阅读

Abstract

由于存在较大的跨模态差异和类内差异,可见红外人体再识别(VI-ReID)是一项具有挑战性的任务。现有的方法主要是通过在相同的特征空间中嵌入不同的模态来学习模态共享表示。因此,学习到的特性强调跨模态的公共模式,同时抑制对Re-ID有价值的模态特定的和标识感知的信息。为了解决这些问题,我们提出了一种新的模态统一网络(模态统一网络)来探索一种鲁棒的VI-ReID辅助模态。首先,将提出的跨模态学习器和模态内学习器相结合,生成辅助模态,对模态特定表征和模态共享表征进行动态建模,以缓解跨模态和模态内变异。其次,通过在三种模态上对齐身份中心,提出了一个身份对齐损失函数来发现鉴别特征表示。第三,通过模态原型建模,引入模态对准损失,使可见光和红外图像的分布距离一致减小。在多个公共数据集上进行的大量实验表明,所提出的方法大大超过了当前最先进的方法。

Introduction

人的重新识别(Re-ID)[8,33]的目的是匹配从多个不重叠的摄像机捕获的行人图像。近年来,由于它在现代监控系统中具有巨大的实用价值,越来越受到人们的重视。以往的研究[10,16,19,30,40]主要集中在匹配从可见光摄像机捕获的行人图像,并将Re-ID任务制定为单一模态匹配问题。然而,在光照不足的情况下,可视摄像机可能无法提供准确的人物外观信息。为了解决这一限制,现代监控系统也采用红外摄像机,它可以在夜间低光条件下捕捉清晰的图像。因此,可见-红外人物再识别(VI-ReID)[1,28,29]已成为近年来越来越受关注的话题,它寻求在多个摄像机视图中给定可见查询时匹配相同身份的红外图像,反之亦然
由于可见光和红外图像之间存在巨大的跨模态差异,以及人体的模态内变化(如姿势变化和服装变化),VI-ReID具有挑战性。现有方法[1,20,29,31,36,37]主要是通过提取模态共享特征进行特征级对齐来缓解跨模态差异。一些研究[1,20,28,31,34]使用两流网络进行交叉模态特征嵌入,而其他研究[3,24,25,36]使用生成式对抗网络(GANs)从可见光和红外图像中生成共享表示。
然而,这些方法丢弃了特定于模态的特征(如颜色和纹理),这些特征包含有用的识别模式,可以防止模态内的变化。因此,学习到的特征可能不能完全捕捉到人体的变化,因此缺乏可辨别性。为了解决这一限制,提出了x-模态[9]、DFM[7]、SMCL[27]等模态统一方法,通过融合可见光和红外模态来获取辅助模态,编码模态特异性和模态共享模式,共同缓解模态交叉和模态内差异。在SMCL[27]中,作者提出了一种由可见光和红外像素融合产生的混合模态,该模态可以在保留模态特定信息的同时弥补可见光和红外模态之间的差距。
然而,现有的情态统一工作仍然存在三个弱点。(1)像素融合。以前的作品通过对原始可见光和红外图像的像素进行融合,得到辅助模态,使得语义模式的丰富度或等于原始模态,或在像素不对齐的情况下低于原始模态。事实上,辅助模态是用来指导可见光和红外模态的学习,但语义模式的不足导致身份相关信息的缺乏,严重限制了VI-ReID缓解模态内变化的能力。

(2)差异偏差。在VI训练过程中,可见光和红外图像之间的相对距离是不断变化的,这导致了对模态内和模态间差异平衡的动态偏差。因此,理想的辅助模态应该能够动态控制其包含的模态特定模式和模态共享模式的比例,以模拟不断变化的模态差异。然而,现有的研究只是简单地使用可见光和红外图像的全局信息来获得辅助表示,这些辅助表示在调整其描述的模式时缺乏灵活性,导致鲁棒性较低
(3)不一致性约束。现有的研究通常利用当前批次的特征来表示距离优化的总体分布。但该策略存在随机性,每批训练样本不同,可能导致不同训练阶段学习到的特征关系存在一定的不一致性,从而损害了策略的泛化性
受上述讨论的启发,我们提出了一种新的模态统一网络(MUN),为VI-ReID探索一种有效且鲁棒的辅助模态。辅助模态的主要思想如图1所示。具体来说,我们引入了一个辅助生成器,包括两个模态内学习器(IML)和一个跨模态学习器(CML),从可见光和红外图像中提取与模态相关的模式。提出了两种IML分别从可见光和红外图像中识别模态特定模式和身份感知模式。他们利用不同核大小的多个深度卷积来捕获人体多个接受野的细粒度语义模式。基于两个IML的输出,CML利用空间金字塔池提取多尺度特征表示,然后融合在每个特征尺度上学习到的模态共享模式。通过将IML和CML相结合,所提出的辅助生成器可以生成功能强大的辅助情态,该辅助情态具有丰富的情态共享模式和判别模式,以缓解情态间和情态内的差异。此外,采用层尺度方案控制从IML和CML学习的模式比例,可以动态调整生成的辅助表示中模式特定和模式共享的模式
图1所示。为VI-ReID任务生成强大的辅助模态背后的主要思想。IML和CML分别表示模态内学习者和跨模态学习者。
图1所示。为VI-ReID任务生成强大的辅助模态背后的主要思想。IML和CML分别表示模态内学习器和跨模态学习器。
此外,为了揭示每个身份集中的身份相关模式,设计了一个有效的身份对齐损失(Lia)来优化三模态身份中心的距离。此外,为了调节分布水平特征关系,同时缓解样本变化带来的不一致问题,设计了一种新的模态对齐损失(Lma),利用模态原型在每次迭代中表示学习到的模态信息,使三模态之间的距离最小。
总的来说,本文的主要贡献可以概括如下。
•我们通过构建一个鲁棒的辅助模态,为VI-ReID任务提出了一个新的模态统一网络,该网络包含来自可见光和红外图像的丰富语义信息,以解决模态差异并揭示判别知识。
•引入了一种由模态内和跨模态学习者构建的新型辅助生成器,用于从异构图像中动态提取身份感知模式和模态共享模式。
•身份对齐损失和模态对齐损失旨在共同探索三种模态在身份和分布水平上的广义和判别特征关系。
•在几个公共VI-ReID数据集上进行的大量实验验证了所提出的方法和模态统一方案的有效性,该方法和模态统一方案在很大程度上优于当前的艺术状态。

Related Work

单模态人员重识别。

单模态人再识别[11,17,33]的目的是匹配不同可见摄像头的行人图像。它提出的挑战,如视角的变化和人的姿态跨越相机视图。目前的方法主要集中在特征表示学习[15,19,39]和距离度量学习[10,30,35,40]。在过去几年中,我们在多项学术指标上都取得了优异的成绩。然而,在实际场景中,许多至关重要的监控照片和视频是在夜间使用红外摄像机拍摄的。当涉及到通过可见光和红外模态匹配行人时,这些单模态方法的能力受到限制,因为它们无法解决巨大的模态差距。相反,我们提出了一个有效的模态统一网络来弥补模态差距,并在24小时监测场景中实现精确的跨模态行人匹配。

可见-红外人员重识别。

由于可见和红外图像之间的跨模态差异以及模态内的变化(如姿势和服装变化),可见-红外人物Re-ID[28]是一项具有挑战性的任务。现有的研究[20,29,31,32,34]主要集中在学习模态共享表征来对齐可见光和红外模态。一些基于生成的方法[24 - 26,36]已经被开发出来,通过使用生成对抗网络(GAN)来实现模态对齐或转换。例如,Wang等人[24]提出了一种双对齐网络,使用GAN共同学习像素级和特征级对齐。D2RL[26]通过对抗性训练进行图像级模态翻译,消除跨模态差异。其他研究[1,20,29,31,34]试图通过设计两流网络来进行跨模态特征嵌入来学习模态共享特征。叶等人[34]提出了一种权值共享的双流网络的双约束top-ranking方法。Wu等人设计了一个跨模态关注方案来帮助两流主干发现跨模态的细微差别。然而,这些方法通常丢弃有助于减轻模态内变化的模态特定表示,导致学习特征的鲁棒性和可判别性较低。
为了从异构图像中捕获模态共享模式和身份感知模式,开发了模态统一方法。这些方法的目的是通过结合可见光和红外图像的模态特定和模态共享表示来获得辅助模态。提出了混合模态[27]来指导判别表示和模态不变表示的生成。DFM[7]通过对可见光和红外像元进行积分来获得混合模态。然而,这些方法通过直接融合可见光和红外图像的原始像素来生成辅助模态,使得它们的辅助模态缺乏高级的语义模式,并且不能灵活地调整其表示。
为了解决这些问题,本文提出了模态内学习器和跨模态学习器,从多个感受野和特征尺度上动态发现大量的模态共享和判别模式。通过整合这些学习器,我们引入了一个强大的辅助模态,有效地弥合了模态差异,增强了学习特征的可辨别性。

Methodology

如图2所示,我们介绍了模态统一网络的细节。我们首先利用两个独立的ResBlocks分别从可见光和红外图像中提取低级特征。然后,设计辅助生成器,结合模态内学习者和跨模态学习者生成辅助特征。然后,将可见光、红外和辅助特征馈送到权重共享的ResBlocks中,以学习高级模式。辅助特征可以作为桥梁来缓解训练过程中模态内和模态间的差异。基于权重共享ResBlocks学习到的可见光、红外和辅助特征,开发了身份损失Lid、身份一致性损失Lidc、身份对齐损失Lia和模态对齐损失Lma四个损失函数,有效提高了跨模态匹配精度。
在这里插入图片描述
图2。拟建的VI-ReID模拟模拟的整体架构。gmp表示广义平均池[21]。采用预训练的ResNet-50[4]作为基线网络。为了满足VI-ReID的具体要求,我们将ResNet50的第一阶段初始化为两个独立的resblock,分别提取低层可见光和红外特征。其余阶段用作模态共享的resblock。在推理过程中,仅利用可见光和红外模态进行跨模态检索。

辅助生成器

辅助生成器包含两个模态内学习器(IML)和一个跨模态学习器(CML)。这两个IML分别用于从可见光和红外图像中挖掘与身份相关的模式。CML被设计为基于两个IML的结果学习模态共享模式。IML和CML的详细体系结构如图3所示。
在这里插入图片描述
图3。提出的模态内学习器(IML)和跨模态学习器(CML)的详细架构。它们被设计用来解耦与模态相关的知识的建模。

模态内学习器。

模态内学习器(IML)旨在捕捉人体的判别和身份意识模式。从两个独立的ResBlocks中提取的可见光或红外底层特征F m∈R C×H×W, m∈{v, R}作为IML的输入,其中m为可见光或红外模态。
为了在保持较低计算复杂度的同时丰富接收场,我们通过矩阵切片运算将F m沿通道维度等分为两部分。
在这里插入图片描述
然后,我们分别使用7×7和5×5深度卷积(D)对fmc1和fmc2进行操作。这使我们能够捕捉不同感受野的空间模式。
在这里插入图片描述
其中Concat表示通道维度上的连接;rm表示从多个接受野捕获的可见或红外特征。然后,利用逐点卷积§通过连接每个通道中的像素来融合具有不同接受域的模式。
在这里插入图片描述为了对人体结构信息进行整合和编码,引入了另一种具有3×3核大小的深度卷积来对学习到的空间地图进行重构。这一层还利用残差分支来保留来自前一层的信息。
在这里插入图片描述
此外,另一个逐点卷积被用于融合Rm2中具有不同接受野的模式
在这里插入图片描述
其中,scale∈(0,1]是可学习的层尺度因子,用于控制IML学习的模态内模式的比例;F^m表示两个IML的结果。
在提出的模态内学习器中,三个具有不同核大小的深度卷积被很好地结合在一起,以捕获存在于不同接受域中的身份相关模式。基于倒转残差结构[12],利用两个点向卷积进行模式集成和信道关系推理。第一个逐点卷积将通道维数从C增加到C * 4,最后一个逐点卷积将通道维数从C * 4减少到C。

交叉模式学习者。

跨模态学习器旨在基于两个IML的结果,从多个特征尺度中挖掘模态共享模式。具体来说,利用n个不同比例的平均池化层来挖掘空间金字塔特征。
在这里插入图片描述
其中{s1, s2,…, S m n}, m∈{v, r}表示具有不同特征尺度的空间金字塔特征。然后,我们利用一组可学习的转置卷积{T R1, T R2,…, T Rn}。
在这里插入图片描述
在这里,通过相应的转置卷积T Ri,将每个交叉模态特征对S´vi和S´r i的空间维度分别重建为H × W。以这种方式,显著的模式可见和红外特征在每个特征尺度上嵌入在一起,有助于发现和放大多个特征尺度上丰富的模态共享信息。
在每个特征尺度上嵌入在一起,有助于发现和放大多个特征尺度上丰富的模态共享信息。
在这里插入图片描述
然后,通过融合多个特征尺度捕获的模式得到辅助特征;

在这里插入图片描述
其中,Fa表示由我们的方法生成的辅助特征。它包含三个学习者捕获的大量情态共享和身份感知信息;Cscale∈(0,1]表示用于控制学习到的辅助特征F a中模态共享表示的比例的可学习层尺度因子;P1×1是一个逐点卷积,用于融合跨不同通道的模式。
CML从多个特征尺度中挖掘重要的模式,并使用转置卷积放大它们的模态共享部分。它使我们的辅助功能成为处理跨模态变化的强大工具。

分类约束

为了确保学习到的可见光和红外特征是身份相关的,引入了用交叉熵项实现的身份损失(Lid)。
在这里插入图片描述
式中,zvi和zri分别表示第i等元中可见光和红外特征的广义平均池。K为每批可见光或红外图像的数量;Yi是第i个身份标签;Cv(·)和Cr(·)分别是可见光和红外分类器的预测值。

如果两个分类器可以对任何模态的特征给出一致的预测,那么学习到的表示就是模态共享的。然而,如果我们直接将一种模态的特征应用于另一种模态的分类器(例如,Cr(Z v)),它可能会迫使分类器学习模态特定模式,而不是模态共享模式,因为前者通常更具判别性。为了解决这一问题,我们提出了一种身份一致性损失Lidc,利用辅助特征来更新可见光和红外分类器的参数。它可以定义如下
在这里插入图片描述
式中,za_i表示第i个单位中的辅助特征池。辅助特征有效地整合了可见光和红外模式,促进了身份相关知识在模态之间的转移,而不影响原始模态内学习。

身份对齐损失

为了缓解类级模态差异,学习判别特征关系,设计了身份对齐损失Lia,利用辅助特征对每个身份的可见光和红外特征进行对齐。
在这里插入图片描述
式中,α为边距参数;P为个人身份的数量;N是第i个单位中的图像个数;在这里插入图片描述在这里插入图片描述
分别为第i标识中的辅助中心、可见光中心和红外中心;zv1,j, zv1,j和zv1,j表示第i个单位集中的第j个可见光、红外和辅助特征。
本文提出了一种用三度量方法优化最难交叉模态正中心对和负中心对的同一性对齐损失。它通过迫使所有身份形成一个紧密的阶级内部空间,并将不同身份的中心推离三种模式,从而调节歧视性和强大的特征关系

模态对准损失

以前的工作[7,20,29]通常通过在每次迭代中约束可见光和红外特征来对齐两种模态。由于每次迭代的训练样本不同,该方案存在学习到的跨模态特征关系不一致的问题。为了克服这个问题,我们提出了一种模态对齐策略,通过在每次迭代中根据特征建模原型来一致地对齐可见和红外模态。
具体而言,我们首先引入了三种模态原型,分别表示可见光、红外和辅助模态的全局信息。它们可以表示为T v = {T v1, T v2,…, t v B}, t r = {t r 1, t r 2,…, t r B}, t a = {t a 1, t a 2,…, t a B}∈R B×C,其中t vi、t R i和t ai分别为每个训练批次(B)中第i个可见光、红外和辅助特征的模态原型。

在第0次迭代中,根据聚类特征[Z v] 0, [Z r] 0, [Z a] 0∈RB×C得到三种模态的初始原型。
在这里插入图片描述
其中wmp是可学习的矩阵,从第m个模态中提取模态相关的模式。[T m] 0表示第0次迭代计算出的第m个模态的原型。

此外,为了在训练过程中对模态信息进行动态建模,我们开发了一种时间累积策略,通过每次迭代中学习到的特征来更新模态原型,其定义如下:
在这里插入图片描述
式中[T m] i为第i次迭代计算的第m个模态原型;β为更新率,随着训练的进行,更新率从1e−8逐渐增大到1。时间累积策略保证了每次迭代都考虑到模态信息,从而同步了训练过程中的跨模态对齐。
基于模态原型,模态对准损失(Lma)设计为:
在这里插入图片描述
其中,tvpp、tprp和ttap分别表示第p个恒等式的可见光原型、红外原型和辅助原型。mmd(·,·)为mmd损失[5]通过约束每次迭代中模态原型的距离实现模态级对齐。在式15中,mmd(T v p, T a p)定义为:
在这里插入图片描述
式中,tpv,i和tpv,j分别表示第p个恒等式中的第i个可见原型和第j个辅助原型;||·||H表示高斯核函数φ(·)测量的分布,它将原型投射到再现核希尔伯特空间中。mmd(T a p, T r p)项也可以用类似的方法得到。
利用模态对准损失通过原型约束可见、红外和辅助模态的身份制导分布距离。它可以有效地减少模态差异,缓解学习到的特征关系不一致的问题。同时,辅助模态可以作为桥梁,减小可见光和红外模态在公共特征空间中的相对距离,从而显著降低跨模态对准的优化难度。

总损失函数

根据之前的工作,我们采用身份损失(Lid = lv id + lr id)和硬挖掘三重损失(Ltri)[26,32]作为我们的基线损失函数。拟议模联的整体损失函数可总结为:
在这里插入图片描述
其中,γ、θ和σ是用来平衡训练过程中每个提出的损失项的贡献的参数。

实现细节

我们使用NVIDIA RTX-3090 GPU在PyTorch框架上实现所有实验。为了确保可重复性并促进与现有方法的公平比较,我们采用预训练的ResNet-50[4]作为我们的骨干网络,其中第一阶段初始化两次作为两个模态特定的resblock,其余阶段用作模态共享的resblock。在训练阶段,所有图像都被调整为288×144。
数据增强,包括随机水平翻转、擦除和通道增强[31],用于防止过拟合。我们的模型使用AdamW优化器[13]进行了90个epoch的训练,权重衰减为0.01。在前15个epoch,学习率从10−8逐渐增加到0.002,然后在第30和第60个epoch衰减0.1。通过网格搜索和反复烧蚀实验,找到了各超参数的最优设置。具体而言,CML中空间金字塔池化的池化比率设为{2,4,6,12};边界参数α设为0.55;损耗平衡参数γ、θ和σ分别设置为0.25、0.5和0.008。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PANZER丿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值