论文阅读10 | RGB-Infrared Cross-Modality Person Re-Identification

最新推荐文章于 2022-10-19 20:18:33 发布

Hygge MrYang

最新推荐文章于 2022-10-19 20:18:33 发布

阅读量1k

点赞数 1

分类专栏：跨模态行人重识别文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_38276972/article/details/116608881

版权

跨模态行人重识别专栏收录该内容

48 篇文章 55 订阅

订阅专栏

论文：RGB-Infrared Cross-Modality Person Re-Identification（可见光-红外跨模态行人重识别的开山之作）

出处：ICCV2017

摘要

首先，该文评估了流行的跨域模型，分为三种常用的网络结构(单流、双流和非对称FC层)，并分析了它们之间的关系。其次，提出了SYSU-MM01数据集。最后，提出了深度零填充方法，用来训练单流网络解决跨模态问题。数据集地址：下载

1. 通用的深度模型网络结构

最常用的结构主要可分为3种类型：单流结构（One-stream Structure）,双流结构（Two-stream Structure）,非对称的FC层结构（Asymmetric FC Layer Structure）
在这里插入图片描述
单流结构：单向结构是视觉任务中最常用的一种。单个输入，全部参数共享。代表工作包括AlexNet、VGG、GoogleNet、ResRetNet等，在分类、检测、跟踪和其他任务方面表现很好。在Re-ID领域中，JSTL-DGD是最先进的网络之一，也使用单流结构。通常，在这些任务中，对网络的输入是具有相同模态的RGB图像，所以共享所有的参数网络适用于这些任务。

双流结构：双流结构通常用于跨模态匹配任务。通常，在较浅的层中，网络的参数都特定于每个域；在更深层中，使用共享参数。与单流结构相比，双流结构要实现两个事情，域适应和学习判别性特征。

非对称的FC层结构：非对称的FC层模型也被用于多域的任务。例如，上图第三个结构，该结构共享除最后一个FC层之外的几乎所有参数，该设计假设不同域的特征提取可以是相同的，并在特征级实现域适应。这种特征提取和域适应的顺序不同于双流结构。

2. SYSU-MM01数据集

数据集描述

SYSU-MM01包含由6台相机拍摄的图像，包括2个红外相机和4个RGB相机。详见下列表格，每一列：相机的索引号，拍摄地点，室内还是室外，白天还是黑夜，ID数目，每个ID有多少不同的连续RGB帧，每个ID有多少不同的连续IR帧。
在这里插入图片描述
文件描述

在下载的文件中，包含: 6个camera文件夹，1个exp标签文件夹。 “ cam1”到“ cam6”：每个目录的名称是ID。值得注意，并非所有人都出现在所有6台摄像机中。其中 cam3 cam6 是红外场景IR，cam1 cam2 cam4 cam5 是真实场景RGB。

exp：用于训练和测试的一个固定的分割。为了获得训练，验证和测试ID，可以使用“ txt”或“ mat”文件。 available_id包含的491个有效ID（至少在2个摄像机中出现）。 train_id，val_id和test_id是非重叠的，它们的并集是available_id。

在这里插入图片描述

评估协议

在SYSU-MM01数据集中有491个有效的ID。我们有一个固定的分割，使用296个身份用于训练，99个用于验证，96个用于测试。在训练期间，训练集中在所有的照相机中的296人的所有图像都可以应用。

在测试阶段，用IR搜索RGB。RGB相机的样品用于gallery，红外相机的样品用于probe。我们设计了全搜索模式和室内搜索模式两种模式。对于所有搜索模式，RGB相机1、2、4和5用于gallery集，红外相机3和6用于probe集。对于室内搜索模式，使用RGB摄像头1和2（不包括室外摄像机4和5）用于gallery集，红外摄像机3和6用于probe。

对于这两种模式，我们都采用了单镜头和多镜头的设置。对于每个RGB相机下的单个身份，选择一个身份图像来形成gallery集，称为单镜头（一个ID在一个cam中只随机选择一个图像作为gallery）；选择10个图像形成gallery集，称为多镜头。对于probe集，将使用所有图像。当给定一个probe图像，通过计算probe图像和gallery图像之间的相似性来进行匹配。注意，要在不同位置的摄像机之间进行匹配。相机2和相机3在相同的位置，所以相机3的probe图像要跳过相机2的gallery图像。在计算了相似性后，我们可以根据相似性的降序得到一个排名列表。

这个数据集具有挑战性，因为一些人的图像是在室内环境中拍摄的，而有些是在室外环境中。它有491人，每个人至少被逮捕两个不同的照相机。我们采用了单镜头全搜索模式评估协议，因为它是最具挑战性的情况。
在这里插入图片描述

3. 深度零填充方法

双流网络和非对称FC层网络的结构是手工设计的，并在训练时的时候是固定的；单流网络应用于单域任务，它平等地对待所有样本，通常不会学习特定领域的节点，而深度零填充可以帮助单流网络更简单地学习模态具体特征。

如下图所示，将RGB图像转换为灰度图像，并放置在第一通道中，然后将零填充图像放置在第二通道中。对于红外图像，它被放置在第二个通道，将零填充图像放置在第一个通道中。
在这里插入图片描述
为了证明深度零填充的有效性，作者在实验中可视化了ResNet-6的特征图，比较了深零填充与原始单通道输入之间的差异。我们计算了数据集上50个不同人的平均特征图，并显示了第一和第二卷积层的所有16个特征图。我们可以对边界框所标识的特定域通道进行分类。很明显，深度零填充比单通道输入有助于学习更多的领域特定通道。 在这里插入图片描述