跨模态行人重识别:Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking(IJCAI18)

Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking

Abstract

提出了一种双向双重约束损失的双流网络。具有两方面优势:
1)直接进行端到端特征学习,无需额外的度量学习步骤。
2)同时处理模态内(基于交叉熵的ID loss)和跨模态差异(基于RankingLoss设计的双向双重约束损失)。

Introduction

双流网络的浅层参数独立,以提取特定模态的信息,全连接层参数共享以学习embedding space。
然而,在跨模态差异和模态内差异同时影响的情况下,不同模态下同一行人的差异甚至可能大于不同行人之间的差异。如下图所示。现有的ReID方法无法很好地解决此问题。
在这里插入图片描述
故设计了双向双重约束损失,该损失同时考虑到两个方面:
a)跨模态约束:锚点到其最远的另一模态正样本(锚点同一行人)的距离锚点到其最近的另一模态负样本(锚点不同行人)距离小于预定义margin。
b)模态内约束:在相同的跨模态约束下,同一模态内,锚点到其最远的正样本与最近的负样本之间距离也应该有所约束。
采用双向训练策略(visible to thermal 和 thermal to visible)

Proposed Method

1、双流网络
大体上可分为两部分:
特征提取器(feature extractor):旨在捕获针对不同图像模态的特定信息。
在ImageNet上预训练,两条路径虽然结构一致,但参数独立。采用AlexNet作为baseline,具体而言,采用五个预训练的卷积层FCN(conv1—conv5)和一个全连接层FC1(4096)作为初始化。FC层后添加批处理层(BN)
特征嵌入(feature embedding):着重将不同模态特征映射到统一特征空间内,学习跨模态共享空间,以弥合两个高度异构模态图像间差异。
简化表示为:在这里插入图片描述
x,z即代表通过特征提取和特征嵌入处理后的可见光和红外图像的特征。
在这里插入图片描述
2、双重双向约束(Dual-Constrained Top-Ranking)
回顾Ranking Loss:给定一个mini-batch,它包含N个可见光图像和N个红外图像。其中锚点可见光图像为xi,标签为yi,我们希望xi与其对应红外模态的正样本zj之间距离应小于xi与其对应红外模态的负样本zk,差异大小为预定义的ρ1。
在这里插入图片描述
注意,所有输入的特征向量x和z都经过L2归一化,以实现稳定收敛。在作者提出的方法中,欧几里得距离被作为相似度度量,比其他度量具有更佳性能。
此外,作者进一步采用双向ranking loss,包含两种关系:可见光与红外三元组(一anchor可见光,两样本红外)、红外与可见光三元组(一anchor红外,两样本可见光)
在这里插入图片描述

与上一公式相同,i、j为同一行人,i、k为不同行人。

以下损失为作者根据ranking loss改进而来:
1、跨模态约束(Cross-modality Top-Ranking Constraint)
基本思想是,将一对可见光-红外正样本对与所有可见光-红外负样本对之间最小距离相比较。(双向)
在这里插入图片描述
优点1)确保最远正样本对距离小于最近负样本对距离。2)双向训练训练策略保证了特征表示是模态不变的,提高了不同查询方式的鲁棒性(query为visible,gallery为thermal与query为thermal,gallery为visible)。
2、模态内约束(Intra-modality Top-Ranking Constraint)
由于行人间具有不同的姿态,视角等差异,VT-ReID也收到模态内差异的影响。为了解决此问题,引入模态内约束。
在这里插入图片描述
3、整体嵌入损失(Overall Embedding Loss)
将IDloss整合到总损失内(可直接理解为交叉熵),最终的损失函数为三个部分的加权求和:
在这里插入图片描述
λ1和λ2为预定义的超参数。

Experimental Results

1、两个公开数据集:
RegDB(412个ID,每个ID分别有10张可见光和红外图像,随机分成两半,一半训练一半测试,重复10次取平均值)
SYSU-MM01(491个ID,训练集包含395个ID,含有22258可见光图像和11909红外图像。测试集则包含96个ID,3803张红外作为query,301张随机选择的可见光图像作为gallery)

2、评价指标:CMC和mAP

3、实施细节:embedding中的全连接层设置为1024,batch size=64,dropout=0.5,图像resize为256X256,再随机裁剪为227X227。损失函数中两个超参数设置为λ1= 0.1和λ2= 1
在这里插入图片描述
BCTR表示只采用跨模态约束,BDTR则采用跨模态和模态内两种约束。

最后附上论文链接,需要请自取:https://www.ijcai.org/Proceedings/2018/0152.pdf

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值