论文阅读10 | RGB-Infrared Cross-Modality Person Re-Identification

论文:RGB-Infrared Cross-Modality Person Re-Identification(可见光-红外跨模态行人重识别的开山之作)

出处:ICCV2017

摘要

首先,该文评估了流行的跨域模型,分为三种常用的网络结构(单流、双流和非对称FC层),并分析了它们之间的关系。其次,提出了SYSU-MM01数据集。最后,提出了深度零填充方法,用来训练单流网络解决跨模态问题。数据集地址:下载

1. 通用的深度模型网络结构

最常用的结构主要可分为3种类型:单流结构(One-stream Structure),双流结构(Two-stream Structure),非对称的FC层结构(Asymmetric FC Layer Structure)
在这里插入图片描述
单流结构:单向结构是视觉任务中最常用的一种。单个输入,全部参数共享。代表工作包括AlexNet、VGG、GoogleNet、ResRetNet等,在分类、检测、跟踪和其他任务方面表现很好。在Re-ID领域中,JSTL-DGD是最先进的网络之一,也使用单流结构。通常,在这些任务中,对网络的输入是具有相同模态的RGB图像,所以共享所有的参数网络适用于这些任务。

双流结构:双流结构通常用于跨模态匹配任务。通常,在较浅的层中,网络的参数都特定于每个域;在更深层中,使用共享参数。与单流结构相比,双流结构要实现两个事情,域适应和学习判别性特征。

非对称的FC层结构:非对称的FC层模型也被用于多域的任务。例如,上图第三个结构,该结构共享除最后一个FC层之外的几乎所有参数,该设计假设不同域的特征提取可以是相同的,并在特征级实现域适应。这种特征提取和域适应的顺序不同于双流结构。

2. SYSU-MM01数据集

数据集描述

SYSU-MM01包含由6台相机拍摄的图像,包括2个红外相机和4个RGB相机。详见下列表格,每一列:相机的索引号,拍摄地点,室内还是室外,白天还是黑夜,ID数目,每个ID有多少不同的连续RGB帧,每个ID有多少不同的连续IR帧。
在这里插入图片描述
文件描述

在下载的文件中,包含: 6个camera文件夹,1个exp标签文件夹。 “ cam1”到“ cam6”:每个目录的名称是ID。值得注意,并非所有人都出现在所有6台摄像机中。其中 cam3 cam6 是红外场景IR,cam1 cam2 cam4 cam5 是真实场景RGB。

exp:用于训练和测试的一个固定的分割。 为了获得训练,验证和测试ID,可以使用“ txt”或“ mat”文件。 available_id包含的491个有效ID(至少在2个摄像机中出现)。 train_id,val_id和test_id是非重叠的,它们的并集是available_id。

在这里插入图片描述

评估协议

在SYSU-MM01数据集中有491个有效的ID。我们有一个固定的分割,使用296个身份用于训练,99个用于验证,96个用于测试。在训练期间,训练集中在所有的照相机中的296人的所有图像都可以应用。

在测试阶段,用IR搜索RGB。RGB相机的样品用于gallery,红外相机的样品用于probe。我们设计了全搜索模式和室内搜索模式两种模式。对于所有搜索模式,RGB相机1、2、4和5用于gallery集,红外相机3和6用于probe集。对于室内搜索模式,使用RGB摄像头1和2(不包括室外摄像机4和5)用于gallery集,红外摄像机3和6用于probe

对于这两种模式,我们都采用了单镜头和多镜头的设置。对于每个RGB相机下的单个身份,选择一个身份图像来形成gallery集,称为单镜头(一个ID在一个cam中只随机选择一个图像作为gallery);选择10个图像形成gallery集,称为多镜头。对于probe集,将使用所有图像。当给定一个probe图像,通过计算probe图像和gallery图像之间的相似性来进行匹配。注意,要在不同位置的摄像机之间进行匹配。相机2和相机3在相同的位置,所以相机3的probe图像要跳过相机2的gallery图像。在计算了相似性后,我们可以根据相似性的降序得到一个排名列表。

这个数据集具有挑战性,因为一些人的图像是在室内环境中拍摄的,而有些是在室外环境中。它有491人,每个人至少被逮捕 两个不同的照相机。我们采用了单镜头全搜索模式评估协议,因为它是最具挑战性的情况。
在这里插入图片描述

3. 深度零填充方法

双流网络和非对称FC层网络的结构是手工设计的,并在训练时的时候是固定的;单流网络应用于单域任务,它平等地对待所有样本,通常不会学习特定领域的节点,而深度零填充可以帮助单流网络更简单地学习模态具体特征。

如下图所示,将RGB图像转换为灰度图像,并放置在第一通道中,然后将零填充图像放置在第二通道中。对于红外图像,它被放置在第二个通道,将零填充图像放置在第一个通道中。
在这里插入图片描述
为了证明深度零填充的有效性,作者在实验中可视化了ResNet-6的特征图,比较了深零填充与原始单通道输入之间的差异。我们计算了数据集上50个不同人的平均特征图,并显示了第一和第二卷积层的所有16个特征图。我们可以对边界框所标识的特定域通道进行分类。很明显,深度零填充比单通道输入有助于学习更多的领域特定通道。在这里插入图片描述

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值