论文阅读之 Deep Transfer Learning for Person Re-identification

1. 摘要

针对的问题: 行人重识别的数据集规模较小而且存在没有标注的情况,那么如何在这样的数据上训练具有数百万参数的深度模型呢?
解决思路: 文章提出了一些深度迁移学习模型来解决数据稀疏性问题。
具体实现: 首先,设计了一种不同于现有深度Re-ID模型的深度网络架构(a)更适合迁移从大型图像分类数据集中学习到的特征,(b)分类损失和验证损失相结合,每种损失采用不同的dropout策略。其次,提出了一种两步微调策略来实现辅助数据集的知识迁移。第三,给出了一个无标记的Re-ID数据集,建立了基于co-training的无监督深度迁移学习模型。
解决效果: 提出的模型在很大程度上优于最先进的深度Re-ID模型:在CUHK03、Market1501和VIPeR上的 rank -1 准确率分别达到85.4%、83.7%和56.3%,而在VIPeR上,我们的无监督模型(45.1%)优于大多数监督模型。

2. 结论

作者在结论中总结了文章的主要贡献:

  • 提出了一些新颖的深度迁移学习模型,以解决具有挑战性的小数据集的Re-ID问题。
  • 通过实验验证了这样的主张,即使用深层基础网络以及分类和验证损失的组合对于迁移从大规模图像分类数据集中学习到的特征至关重要。
  • 证明了基于协同训练的深度无监督迁移学习模型可以在没有任何标记数据的情况下执行有效的Re-ID。

3. 深度Re-ID模型

3.1 概述

  1. 网络功能:网络模型以一对输入的人检测图像作为输入,并旨在学习身份识别的人的外观的深层表示,以便可以在视觉相似的情况下正确匹配同一人的图像。
  2. 网络结构:该网络包含四个部分(参见图1),两个分支共享的基础网络,特定损失的dropout单元,ID分类子网和成对验证子网。 网络的两个主要分支具有相同的基本网络体系结构并共享其参数,因此命名为Siamese。
    在这里插入图片描述

3.2 各部分功能

基本网络(主干网络):计算输入图像的特征向量。选用GoogLeNet 。
特定损失的丢失单元:将成对一致的丢失或标准随机丢失应用于特征。
验证子网:取一对特征,并学会区分它们是否来自同一个人。
ID分类子网:对主干网络的每个特征输出分类(类别为输入图像人员ID对应的类)
模型具有两个训练损失:ID classification loss 和 pair-wise verification loss。

3.3 模型的测试

由于test people与 training people具有不同的身份,因此ID分类子网在测试期间是多余的。 验证子网可以潜在地用于生成给定probe图像和每个gallery图像的匹配分数,它们可以被馈送到网络中以计算相同身份/不同身份分数。
然而,通过这样做,模型变成了一个跨图像表示 (CIR)模型,这意味着输入图像对必须通过子网中的FC层和softmax loss层。相反,文章打算使用提出模型作为SIR模型,也就是说,我们预先计算图库的基网络输出向量;当任何probe进入时,我们计算其特征输出,并使用简单的欧氏距离与gallery输出向量进行比较,这比输入验证子网并计算softmax score作为距离快3个数量级。

4. 深度迁移学习的Re-ID

本文在这里只介绍:当目标Re-ID数据集被标记ID时,有监督迁移学习的设置。如有对无标注无监督学习感兴趣的朋友们,可以自行阅读原文学习。

4.1 一阶段的迁移学习

在现有Re-ID工作中,在有监督的设置下有两种情况:目标Re-ID数据集“很大”,即具有1,000个以上的标识,例如CUHK03 [25]和Market1501 [66],“小”是小于1000的,例如 VIPeR [10]。现有的深度Re-ID模型是从头开始针对大型数据集进行训练的,即无需进行迁移学习。 对于小型数据集,通常会在大型数据集(例如CUHK03 + Market1501)上对模型进行预训练,然后对小型目标数据集进行微调。 我们称其为基于一步式微调策略的一阶段迁移学习方法。
文章中的迁移学习
利用分类和验证损失以及相应的两个子网的独特组合,无论目标数据集大小如何,均可从ImageNet进行迁移学习。 具体来说,对于较大的Re-ID数据集,迁移学习是一个阶段,即ImageNet→Re-ID数据集,而当目标数据集大小较小时,即ImageNet→large Re-ID,则需要两阶段迁移学习。 ImageNet→大的Re-ID数据集→小的Re-ID数据集。 重要的是,在每个阶段,我们都开发了两步式微调策略,与传统的一步式微调策略相比,它可以更有效地进行迁移学习。

4.2 两步微调

假设有一个较大的源Re-ID数据集 S 和一个较小的目标数据集T,分别具有 Ns 和 Nt ID)。给定一个使用S训练的初始模型,我们的目标是将从 S 学习到的特征表示 向 T 迁移。 请注意,由于 Ns 和 Nt 的 ID 不重叠,因此无法重复使用初始网络中的softmax ID分类层。 因此,原来的 Ns softmax 层必须替换为随机初始化的 Nt 层。在微调的第一步中,我们冻结所有其他层,并仅训练新添加的softmax层,即分类子网。 冻结网络的其他部分(基础网络+验证子网)对于此阶段的训练至关重要:在不锁定它们的情况下,softmax层的随机初始化参数将有害梯度反向传播至基础网络,从而生成“垃圾梯度” 破坏模型的适应性。 在对softmax层进行全面训练之后,使从 S 中学到的特征可以很好地分类新 ID Nt ,在第二阶段,我们使用目标数据集 T 对softmax层以及网络的所有其他层进行微调。实验表明,提出的两步微调策略比一步法要好得多。

5. 实验

5.1 数据集和设置

实验使用了五个广泛使用的数据集,其中包括两个大型数据集和三个小型数据集。
在这里插入图片描述
评估指标:使用累积匹配特征(CMC)曲线评估Re-ID方法的性能。 使用均值精度(mAP)来评估Market-1501的表现。

5.2 实现细节

使用Caffe框架实现模型。在本节中,给出输入数据组织的一些实现细节、验证和分类子网的详细结构以及训练设置。
输入数据的组织
网络有两个不同的训练目标:ID分类任务和成对验证任务。 有多种方法可以将训练图像组织为 mini-batches 以进行模型训练。 最简单的方法是将训练图像成对组织。 具体来说,可以随机选择正负图像对,然后将它们打包成一个小批量。 但是,这是非常低效的– GPU内存通常是限制每个 mini-batche 中可以包含对的数量的硬件瓶颈。为解决此问题,根据ID 组织 mini-batch,并动态生成配对。特别是,我们在GPU内存中仅保留一组基础网络参数,并按以下方式组织 mini-batches :在每次迭代中,我们随机选择 K 个人。 然后,我们为每个人随机选择M张图片。 加载 K * M 张不同的图像以形成一个 mini-batch。 为了生成对,我们首先根据人的身份穷举所有正负对,然后随机复制正对,直到正负对的数量相等,即保持平衡。 这样,在每个 mini-batch 中可以生成更多的图像对,以更好地训练模型。
在实验中,每个mini-batche中随机选择32个人,并为每个人选择两张图片,从而分别生成了3,968对正负对。
验证子网
如图1所示,经过GoogeLeNet基本网络和成对一致的丢失后,每对图像由两个1,024D向量表示。 在验证子网内部,首先对它们进行逐元素减法以生成单个1,024D向量。 通过ReLU层后,此向量将被馈入1024维FC层,然后是两节点的softmax层。
分类子网
分类子网由一个 N节点的softmax层组成,其中N是训练集中的ID。
辅助损失
原始GoogLeNet [48]从网络的中间层延伸出另外两个辅助损失/分支。 我们通过在两个扩展分支上添加额外的ID分类和成对验证子网来遵循这种设计模式。 这导致我们的网络总共有6个损失。
训练设置
初始学习率设置为0.001,每40K迭代乘以0.1。 对于从ImageNet到大型Re-ID数据集(CUHK03和Market-1501)的监督式两步迁移学习,网络分别针对每个步骤进行了20K和150K迭代训练。 为了从大到小的Re-ID数据集(例如VIPeR)执行两步转移学习,我们对网络进行了每步20K迭代的训练。
数据增强
为了减少过拟合,我们也在Re-ID数据集上进行数据增强,就像在大多数深度Re-ID工作中一样。对于每一幅训练图像,我们通过随机二维变换在图像中心周围生成5幅增强图像。
参数设置
为了训练我们的监督模型,验证损失和分类损失之间的权重为3:1。

5.3 监督迁移学习

大型数据集的结果
在两个较大的Re-ID数据集CUHK03和Market上,我们的模型采用了一个阶段的微调,即在ImageNet上进行预训练(ILSVRC 2012),然后进行两步微调。 我们的模型结果分别与表1和表2中最先进的深度和非深度Re-ID模型进行了比较(它们在表中分组在一起)。 可以得出以下结论:(1)我们的模型明显优于最新技术:在CUHK03上,使用手动裁剪的图像的差距为10.1%,使用检测到的图像的差距为16.0%。 在Market的差距更大,尤其是在mAP指标上:在single query设置下,比Gated S-CNN 高26.0%。(2)这两个大型数据集上的最佳竞争者都是基于深度学习的。但是,它们在基于手工特征的模型上的优势不大(尤其是在Market上),远没有其他视觉识别任务中广泛观察到的那样明显,这是因为大型数据集仍然相对较小,无法释放深度模型的全部潜力。 但是,使用文中的模型,差距现在很明显。主要原因是我们的模型能够迁移从ImageNet学到的特征表示,这要归功于选择的基础网络(GoogLeNet)和训练目标(分类+验证损失)。相比之下,没有一个比较模型从其他辅助来源迁移知识,我们发现即使它们在ImageNet上进行了预训练,它们也不能迁移知识。

在这里插入图片描述
在这里插入图片描述
小型数据集的结果
在三个较小的数据集上,需要两阶段的转移学习,即ImageNet→CUHK03 + Market→VIPeR / PRID / CUHK01。
在这里插入图片描述
请注意,比较的基于手工特征的模型具有两个子组:具有一种特征类型的子组和使用基于多个模型的融合/集成的子组。 此外,大多数比较深层模型都使用迁移学习,但是只有一步(通常来自CUHK03 + Market)和一步微调。 可以看出,文中的深度Re-ID模型在所有三个数据集上均取得了最佳结果。 最小的两个VIPeR和PRID的改进幅度约为3%,但较大的CUHK01的改进幅度却很大。 相比之下,现有的深层Re-ID模型在小型数据集上都无法击败基于最佳手工特征的模型, 还是由于他们的迁移学习能力差。
损失选择
首先通过检查损失的选择来开始我们的消融研究。 我们认为,正是ID分类损失和成对验证损失的结合使我们的模型能够有效地从面向分类的 Imagenet 迁移有用的表示,并将其适应于Re-ID的验证任务。 为了验证这一说法,我们考虑了三种损失:softmax ID分类(SID),成对验证(PV)和三重损失(TL)及其组合。 所有这三个都已在现有的Re-ID模型中使用,但以前从未将SID与PV结合使用。 我们使用ImageNet上经过预训练的相同基础网络,并在Market上进行测试。 我们可以从表4的结果中得出以下结论:(1)当单独使用时,SID和PV的性能相似,其中TL最差; (2)当SID与PV或TL一起使用时,性能会大大提高。 但是如果没有SID,PV + TL的结果要比单独的PV差。 这清楚地表明,拥有分类损失确实是从ImageNet迁移知识的关键。 (3)当所有三个损失加在一起时,性能会稍差一些,这意味着对于SID和PV,TL损失是多余的。
在这里插入图片描述

成对一致的 dropout 和两步微调

模型中的另外两个贡献是成对一致的 dropout 和两步微调。 表5显示,Market-1501和VIPeR上成对一致的 dropout 提高了约3%。 请注意,三重损失(TL)也会受益,尽管程度较小。我们希望每当使用这两个损失时,都应选择该成对一致的 dropout 超过标准随机dropout 。 表6表明两步微调甚至更关键,在VIPeR的 Rank 1上带来了约8.7%的收益。
在这里插入图片描述
在这里插入图片描述

5.4 基础网络选择的评估

表8显示:(1)仅具有SID丢失,较小的基本网络在有或没有对ImageNet进行预训练的情况下在Market上的性能要差得多。 但是,通过SID + PV组合,DGDNet的结果得到了很大的改善,但是从Imagenet进行的迁移学习现在具有负面效果。 (2)以GoogLeNet为基础网络,从ImageNet进行迁移学习变得至关重要,它太大而无法从头开始从任何Re-ID数据集中进行训练。 (3)在小型VIPeR数据集上,通过我们的两阶段迁移学习,两个基础网络的表现截然不同:以大型Market + CUHK03作为辅助数据集,我们以没有在ImageNet上进行了预训练的DGDNet为基础网络的模型非常有效,但效果不如使用ImageNet预训练的GoogLeNet基础网络(51.5% vs 56.3%)–这显示了使用更深的基础网络的优势,也就是说,它可以学习更多可通用的特征表示,从而有益于小型Re-ID数据集 。 总而言之,该结果表明,即使对于为Re-ID量身定制的较小的深度网络,将分类损失与验证损失相结合也是非常有益的。 但是更好的网络设计是采用针对ImageNet量身定制的基础网络,并使用ImageNet辅助数据集进行迁移学习。
在这里插入图片描述

5.5 定性分析结果

为了对模型实际学习到的内容以及来自大型辅助数据集(如ImageNet)的知识迁移的贡献获得一些见解,我们在图2中可视化了在GoogLeNet基础网络的第一卷积层上进行的一些特征响应,该层在Market-1501上使用提出的 pipeline进行了训练。 为了进行比较,还可视化了另一个GoogLeNet基础网络同一层的特征响应。 这两个网络之间的唯一区别是,第二个网络是从头开始训练的,而不是使用ImageNet预训练的参数。 特别是,图2的第一行显示了两个人在不同相机视图下的原始输入图像,而第二行和第三行则显示了两个模型的对应特征响应。 由ImageNet预训练的模型精确地选中特定身体部位。 相比之下,未经ImageNet预训练的网络学习的特征则更加模糊。 这表明在Imagenet上进行预训练的主要好处之一是该模型更加了解视觉对象的概念,因此能够描绘出对象(人)和对象部分(例如头部,躯干,手臂等)。 更准确地讲,这为发现有判别性的匹配特征奠定了坚实的基础。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值