论文阅读15 | Cross-Modality Person Re-Identification via Modality-aware Collaborative Ensemble Learning

论文:Cross-Modality Person Re-Identification via Modality-aware Collaborative Ensemble Learning(基于模态感知协作集成学习的跨模态行人重识别)

作者:叶茫

1. introduction

一般RGB相机在低照度环境下,如夜间,无法捕捉到有效的外观信息;许多新一代监控摄像头能够自动切换到红外模式,在晚上捕捉人的图像。跨模态reid的任务就是使用一种模态的图像去搜索另外一种模态的图像。

在这里插入图片描述

2. motivation

主要有两点:

  • 之前的研究通常使用模态共享分类器学习跨模态特征表示。分类器层次上的模态差异问题在他们的方法中没有得到很好的解决。
  • 以往的研究通常采用带有共享嵌入层的双流网络来学习模态共享特征,只能捕获高级共享信息,而中层卷积层中的区分性共享信息被忽略。

下图1是之前的网络结构,只在FC层共享参数提取高层共享特征;图2是本文的中层参数共享的网络结构。
在这里插入图片描述
在这里插入图片描述

3. contribution

  • 提出了一种新的模态感知的协同集成(MACE)学习方法,该方法采用改进的中层可共享双流网络(MSTN)进行跨模式VT-ReID学习。并证明了在特征级和分类器级一致地处理模态差异对于VT-ReID是重要的。
  • 引入了一种协同集成学习方案来利用不同分类器之间的关系。它增强了集成输出的可鉴别性和一致性。
  • 基本思想就是处理特征级别和分类器级别的模态差异。① 特征级:使用具有部分共享的网络结构学习特征表示。改进主要在于使用可共享的卷积块来捕获具有区别性的中层特征,而不仅仅是高级特征。② 分类器级:引入模态共享分类器和模态特定分类器来指导特征学习。一方面,模态共享分类器的目标是获取共享信息;另一方面,模态特定分类器学习两个不同模态的身份分类器来处理模态差异。③ 引入了集成学习策略,将不同分类器的所有预测输出组合在一起,形成一个增强的teacher ensemble。④ 为了促进不同分类器之间的知识转移,采用了知识蒸馏技术进行协同学习。通过一致性正则化,利用模态特定分类器和teacher ensemble之间的关系,提高了性能。

4. related work

协作集成学习(Collaborative Ensemble Learning):协同学习的目的是训练一个具有多个分类器的改进网络,这些分类器通过使用相同的网络结构来协同提高特征学习性能。多个分类器的输出预测可以相互提供补充信息。在此思想的启发下,我们提出通过结合模态共享分类器和模态特定分类器的输出来形成教师集成。此外,我们引入协作学习方案,将教师集合与特定模态分类器输出相结合,以提高跨模态人的Re-ID性能。

5. method

5.1 overview

我们提出的方法主要包括三个部分:

  • Feature-Level Modality-aware Learning,引入了一个可共享的中层双流网络进行特征学习,网络结构部分独立、部分共享参数,解决特征级差异。
  • Classifier-Level Modality-aware Learning,同时使用模态共享和模态特定的分类器来处理分类器级的模态差异。
  • Collaborative Ensemble Learning,设计了一种协同集成学习方法,利用不同分类器之间的关系来促进特征学习。
    在这里插入图片描述

5.2 Feature-Level Modality-aware Learning

使用ResNet50作为backbone,浅层卷积层的网络参数是不同的,用于捕获特定模态的低级特征。深层的卷积层的网络参数是共享的,学习可共享的中层特征表示。然后,经过自适应池化和BN层。请注意,共享BN层的输出用于测试过程中的特征表示。

只使用一个模态共享的分类器(两中模态的图像经过一个分类器)的baseline,实验证明效果有了较大的提升。损失函数设计: L 0 = L t r i 0 + L i d 0 L^{0}=L_{tri}^{0}+L_{id}^{0} L0=Ltri0+Lid0,其中三元组损失为上篇博客使用的双向的难挖掘三元组损失,ID损失为可见光图像交叉熵损失和红外图像的交叉熵损失之和。

5.3 Classifier-Level Modality-aware Learning

只使用一个参数共享的分类器,可能会在分类器级别丢失特定模态的信息。为解决上述问题,基本思想是为再学习两套具体模态的分类器。两个分类器的损失函数设计:都是用交叉熵损失函数。 L s = L i d v + L i d t L^{s}=L_{id}^{v}+L_{id}^{t} Ls=Lidv+Lidt

5.4 Collaborative Ensemble Learning

三个分类器分开优化,这种学习策略可能会丢失不同分类器之间的互补信息,于是引入了一种协同集成学习方案。

首先,将分类器的输出集成到一起,并且假设不同的分类器在集成中贡献相同。也就是,输入一对可见光-红外图像,计算分类器输出的四个向量z的平均值,计算平均值和真实值的交叉熵损失 L e L^{e} Le

Collaborative Consistency(协同一致性):

为了促进不同分类器之间的知识转移,我们采用了知识蒸馏技术。添加一个温度参数T来平滑不同分类器的概率分布。T越大分布越平滑,负标签含有的信息越多。由全连接的输出 z 变化的概率值pe、pv、pt的计算都如所示:
在这里插入图片描述
为了使两个模态特定身份分类器和教师集合之间的分布保持一致,我们把pe当作真实值软标签,使用KL散度,计算两组分类器的输出和软标签的分布差异,将两个分布差异的和作为loss。在这里插入图片描述

5.5 Overall Loss Function

在这里插入图片描述
注意,由于温度T,协作一致性损失Lc的梯度大小按1/T2缩放。因此,我们将协作一致性损失Lc乘以一个因子T2,以确保它与集成学习损失Le的贡献相似。W (t)是一个爬升的s型函数,其中权值从0逐渐增加到1。主要原因是不同分类器的初始预测可能相差很大,很难保证预测的一致性。
在这里插入图片描述

5.6 n-pair Batch Sampling

设置多模态的抽样策略。在每一个batch中,选择p个ID,对于每个ID选择k个RGB图和k个红外图。那么就构成了p x k对图像。

跨模态融合变压器用于多光谱目标检测是一种先进的目标检测方法。多光谱图像由不同波段的传感器捕获,每个波段提供了目标的不同特征信息。传统的目标检测算法往往局限于单一光谱波段,无法在多光谱图像中有效提取目标信息。而跨模态融合变压器能够将不同波段的光谱信息融合,并在融合后的特征上进行目标检测,从而提高目标检测的准确性和鲁棒性。 跨模态融合变压器结合了Transformer模型和跨模态融合方法。Transformer模型是一种基于自注意力机制的神经网络架构,能够有效地建模长距离依赖关系。它将目标的特征信息转化为一系列的注意力权重,然后利用这些权重来对不同波段的特征进行加权融合。这种融合方式可以将信息从一个波段传递到另一个波段,使得各个波段的特征能够共同影响目标检测结果。 跨模态融合变压器还引入了多尺度的注意力机制,以适应不同尺度目标的检测需求。它通过在特征提取的过程中引入多个不同大小的注意力窗口,来对不同尺度的目标进行建模。通过这种方式,跨模态融合变压器能够在多光谱图像中准确地检测到各种尺度的目标。 总之,跨模态融合变压器是一种能够融合不同波段特征并进行多光谱目标检测的先进方法。它的引入可以提高目标检测的准确性和鲁棒性,适用于各种需要从多光谱图像中提取目标信息的应用场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值