CVPR2019 Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

URL:https://www.csie.ntu.edu.tw/~cyy/publications/papers/Wang2019LRD.pdf 
From: CVPR2019
台湾国立大学、日本国立情报学研究所、东京大学

Abstract

红外-可见person Re-id(IV-REID)目前是一个有挑战性的研究课题。与传统的person re-id相比,IV-REID因为图像成像光谱的不同所以在行人外表不同的前提下又额外增加了模态差异,此外还有因为视角变化、姿势变换和变形引起的行人外观变化等传统Re-id任务的难点。这些已存在的问题使得IV-REID变得十分困难。之前提出的一些方法主要是使用feature-level的约束来同时减小模态和外观上的差异。然而这种方法的效果很差。为了缓解这一问题本文提出了一个新的方法-双层差异减少(D2RL),这种方法可以分别处理这两种差异。对于模态差异来说,我们通过训练image-level子网络对相应的红外和可见光图像进行相互translate。在image-level子网络的帮助下,我们可以对不同模态下的图像进行联合表示。通过上面的操作,我们可以得到联合多光谱图像,这样就可以使用feature-level子网络对其他的外观差异进行约束。

Introduction

IV-REID是一种跨模态的图像匹配,其主要的任务在于,给定一个行人的可见光(或红外)图像在数据集中找到其他相机拍摄的此行人的红外(或可见光)图像。
与传统的re-ID任务相比,IV-REID除了由于视角变化、姿态变化等引起的行人外观变化的挑战之外,又增加了因为成像原理不同而产生的模态的不同。
在之前的工作中主要是通过feature-level的约束处理modality 差异,但是效果很差。

上图是本文提出的方法的主要结构。由于红外和可见光的图像是从不同模态中获得的所以外表的差异十分巨大。因此之前直接将其映射到特征空间中的做法是不合适的。为了减少这一问题,我们提出首先通过图像级转换来统一图像表示以减少模态差异。具体来说,我们利用可见光-红外或红外-可见光相互对应的图像来将红外图像增强为多光谱图像。而在多光谱空间中可见光和红外图像的外表差异就比较小了。之后就可以使用传统的re-ID方法在feature-level上约束外表差异。
具体来说本文首先处理模态差异,并通过图像级差异缓解子网络Ti进行缓解,其通过得到的可见光和红外图像进行多光谱图像的合成。然后,我们通过减小特征级差异子网络-Tf来处理外表的不同,其中将feature embeding与联合表示一起使用会更有效。这样Tf网络有利于Ti网络生成更discriminatively的光谱图像,同时Ti给Tf提供了更多的转换样本。
本文的贡献点在于:
1、提出了一种双层差异减少的学习策略。我们是第一批分解混合模态和外观差异并分别处理它们的人。
2、我们提出的端到端的学习策略可以让两个子网络相互受益、相互提高。
3、在两个数据集上的验证都证明了本方法的有效性。

Method

X={x|x∈RH×W×3}与Y={y|y∈RH×W×1}分别表示visible image和infrared image 给定一张红外(可见光)query图像y(x)和可见光(红外)gallery集X(Y),IV-REID的任务是在gallery set中获取一个ranking list(排名列表),其中和查询图像具有相同身份的图像应当排在前面。
本文提出的方法如下图所示。主要包含两个子网络:(1)、在image-level上减少模态差异的子网络TI;(2)、feature-level 差异减小子网络TF用来较小外观的差异。

3.1 Image-Level discrepancy reduction-TI
TI子网络使用两个VAE(变分自编码器)来分析图像的风格,之后使用两个GAN网络生成特定域图像的生成。Ti将可见光(红外)图像x(y)进行相应的红外(可见光)图像x^(y^)。利用这两个图像生成的多光谱图像x,x^再生成联合表示以减少modality discrepancy。
1、Style diaentanglement(风格分析):使用VAE对可见光图像和红外图像分别进行分析,首先编码器Ev将可见光图像x映射到一个latent vector zv,之后解码器Gv对latent vector zv进行重构。则重构的图像为:其中是zv中的潜在信息分布,也就是分析得到的可见光图像x中的风格信息。则VAEv的损失函数为:

2、Domain specific image generation
本文使用两个GAN网络根据style-free latent vector z 生成特定域图像。对抗网络的损失函数为:

 这个损失函数用来确保生成的图像类似于目标域中的图像。
3、Cycle-consistency
循环一致性,用来进一步规范不确定的无监督图像到图像的转换问题。与CycleGAN类似,本文的损失为:

 4、Modality unification
现在有三种统一模态的选择,将图像都统一在红外模态、都统一在可见光模态和统一在多光谱模态。本文选择在多光谱模态进行模态统一主要有两个原因。首先红外或可见光是对统一目标由不同成像过程产生的不同表示。另外,如果将图像统一到可见光或红外模态,则可能会失去另外一个模态的独特信息。
5、Objective for training TI
综合上面的内容,子网络TI的整体损失为:

通过的到子网络TI我们可以根据可见光图像x生成对应的红外图像x>,根据红外图像y生成可见光图像y>。因此我们根据得到训练数据S,可以生成多光谱图像,Uv=[x,x>]和Ui=[y>,y]。这样可以很大程度上减小模态的差异。
3.2 Feature-level discrepancy reduction-TF
对于每一个batc,本文使用TI子网络生成样本集S。之后通过feature-level discrepancy reduction子网络TF在联合多光谱图像上学习特征。给定一个混合多光谱图像u通过网络提取出其行人描述符f。具体来说,在本文中使用ResNet-50 作为backbone network,另外我们将最后的FC改为FC-1024(只是修改了原FC层的参数)之后将得到的tensor向量传入两个独立的FC层之中-Ht和Hc,以生成两个特征向量-128维的ft和N维的fc。这两个特征向量分别用来计算不同的loss,以训练TF子网络。ft特征向量用来训练交叉熵损失,学习identity 信息。fc用来计算用来计算triplet损失,学习相似性。
Triplet loss:

Cross-entropy loss:

则TF子网络的损失函数为:

3.3 End-to-End joint training:

Result

RegDB是热度图和可见光图的数据集,SYSU-MM01是红外图和可见光图的数据集。两个都是跨模态的数据集。

Throught

这篇文章是继ICCV2017的RGB-Infrared Cross-Modality Person Re-Identification论文之后的一篇研究在不同模态下进行person Re-ID。主要是在可见光和红外两个模态下进行交叉检索。从文章的结果可以看出将两个不同模态的图像进行相互生成假图像,再将假图像和真图像进行合并以生成混合多光谱图像,进行联合学习。

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值