论文阅读Generalizing A Person Retrieval Model Hetero-and Homogeneously

论文阅读Generalizing A Person Retrieval Model Hetero-and Homogeneously

论文:Generalizing A Person Retrieval Model Hetero-and Homogeneously
作者:Zhun Zhong, Liang Zheng, Shaozi Li, Yi Yang
ECCV2018

Abstract
行人重识别(re-ID)对于无监督域适应(UDA)提出了独特的挑战,因为源和目标集(域)中的类完全不同,并且图像变化主要由相机引起。给定标记的源训练集和未标记的目标训练集,我们旨在提高目标测试集上的re-ID模型的泛化能力。为此,我们介绍异构同质学习(HHL)方法。我们的方法同时实施两个属性:1)相机不变性,通过未标记的目标图像形成的正对和他们的相机样式转移对应物学习; 2)域连通性,通过将源/目标图像视为与目标/源图像的负匹配对。第一个属性由同构学习实现,因为训练对是从同一个域收集的。第二个属性是通过异构学习实现的,因为我们从源域和目标域中采样训练对。在Market-1501,DukeMTMC-reID和CUHK03上,我们表明这两个属性不可或缺,并且实现了极具竞争力的re-ID UDA精度。代码:https://github.com/zhunzhong07/HHL

1. Introduction

给定一个query,行人重识别(re-ID)旨在从query中的不同相机收集的数据库中检索相同的人。尽管卷积神经网络(CNN)获得了显着的性能改进,但据报道,在源域上训练的深度re-ID模型可能在目标域上具有大的性能下降。主要原因是源域的数据分布通常与目标域不同。在本文中,我们考虑无监督域自适应(UDA)的设置,其中在训练期间我们提供标记的源训练图像和未标记的目标训练图像。在目标测试数据库上进行评估性能。

在图像分类、对象检测和语义分割等方面得到了广泛的研究的无人监督域适应,在行人重识别的背景下面临着新的挑战。一方面, re-ID的源域和目标域具有完全不同的类(行人身份),而在一般的UDA中,源和目标共享相同的类集。另一方面,可以清楚地识别导致re-ID的域变化的一个关键因素,即相机的差异。即使在未标记的目标域中也已知摄像机信息,即捕获图像的摄像机。然而,在UDA社区中如何有效地利用相机信息进行行人重识别仍然是未知的。

在本文中,我们的设计的动机来自两个方面,与上述新挑战密切相关。首先,我们动机的一个关键部分来自于由不同摄像机配置引起的域内图像变化。在最近解决UDA问题的方法中,这种观点在很大程度上被忽略了。这些最近的作品要么专注于保留内容的源-目标翻译模型,要么同时使用属性和身份标签来学习可转移模型。据我们所知,这些方法仅考虑整体域间差异,但没有明确考虑由不同摄像机配置引起的域内图像样式变化。实际上,域内相机风格差异是re-ID的关键影响因素,因为在测试期间,查询及其准确率匹配由不同的相机捕获。在不考虑细粒度的域内图像变化的情况下,在源集上训练的转移学习模型可能仅捕获两个域之间的总体数据偏差,并且在遇到目标域测试集中大的域内图像变化时出现问题。

其次,我们认为由于源和目标集具有完全不同的类/身份这个前提,因此源图像和目标图像自然形成负训练对。邓等人已经探索过类似的想法。但是,这两篇论文的使用目的不同。邓等人使用负对来改进图像转换模型,以便生成的图像在很大程度上保留其身份标签,这是UDA的理想属性。相比之下,我们直接使用这些负对来学习三元组损失公式中的行人embeddings。

基于这两个考虑,我们提出了一种新的无监督域自适应方法,称为异构同质学习(HHL),用于re-ID任务。HHL的构建没有目标监督,即我们不需要费力的手动注释目标集中的身份。事实上,HHL的构造需要源集(给定的身份标签),目标集(没有身份标签)以及目标集中每个图像的摄像机信息。在这里,我们强调每个目标图像的摄像机ID可以与原始视频一起获得:只需记录捕获视频的摄像机的ID就足够了。因此,我们称HHL的建设“没有目标监督”,或者准确的说“目标监督极其薄弱”。

在我们的方法中,HHL支持两个属性的约束。首先,我们约束学习对目标域中的相机差异具有鲁棒性的行人embeddings。为了以无监督的方式实现这种相机不变性,通过图像转换生成正向训练对,将每个相机视为单独的风格。其次,为了赋予系统域连接性,我们分别使用从源集和目标集中采样的负训练对来学习源域和目标域之间的基础结构。在本文中,强加相机不变性属性是一个同质的学习过程,因为训练图像来自同一个域。由于训练样本来自两个域,因此提出域连通性属性意味着异构学习过程。这两个性质均匀地产生正对和非均匀地产生负对,其通过锚图像桥接以被使用到三元组损失训练中。

总之,本文的主要内容包括三个方面。首先,介绍了异构同质学习(HHL)方案。通过三元组损失,它带来了系统的相机不变性和域连通性,这是有效的行人重识别UDA方法的基本属性。其次,HHL是一种在UDA中培训样本构建的新方法。它对参数变化很有鲁棒性。 通过实验研究验证了相机不变性和域连通性的洞察性和必要性。 第三,我们在Market-1501,CUHK03和DukeMTMC-reID数据集上展示了最新的UDA准确度。

3. ProposedMethod

问题定义。对于行人重识别的无监督域适应,我们有一个包含NS个行人图片的有标签源集 。每张图片xS对应一个标签yS, ,MS是标签数量。在无标签目标集 中我们也有Nt个无标签目标图片。在 中每一个目标图片xt的标签是未知的。本文的目标是利用标记源训练图像和未标记目标训练图像学习目标测试集的判别embeddings。

在这里插入图片描述
3.1 Baseline Configuration

我们使用ResNet-50作为主干网络,并遵循[48]中的训练策略,对ImageNet预训练模型进行微调。我们丢弃最后一个1000维全连接层,并添加两个FC层。第一个FC层的输出是1024维并命名为“FC-1024”,然后是批标准化,ReLU和Dropout。第二个FC层叫“FC-#ID”,输出是MS维,MS是有标签训练集的标签数量。

给定标记的训练图像,对于行人重识别一种有效的策略是学习ID-discriminative embedded (IDE)。将训练过程转化为分类问题,引入交叉熵损失。交叉熵损失记为:

在这里插入图片描述
ns是一个batch中的标记图片数量,pi(y)是输入的属于真值的类y的预测概率。在本文中我们称这个模型为baseline。

基于IDE的方法在完全标记的数据集上取得了良好的性能,但常常不能推广到新的目标集上。接下来,我们将描述采用异质同质学习(HHL)方法提高baseline的可移植性。

3.2 Network Architecture

本文使用的网络如图1所示。它有两个分支。第一个分支与baseline相同,是一个识别任务。第二个分支与第一个分支有两个不同之处:1)使用128维的FC层“FC-128”代替“FC-#ID”层;2)采用三元组损失代替交叉熵损失。因此,我们的网络有两个损失函数,一个用于分类的交叉熵损失和一个用于相似性学习的三元组损失。对于相似性学习,我们采用[15]中使用的三元组损失,表示为:
在这里插入图片描述
X代表一个训练batch中的图片数量,xa是一个锚点。xp是与xa在同一类中最难(最远)的样本,xn是与xa不同类中最难(最近)的样本。M是一个margin参数,D()是embedding space中两幅图片间的欧式距离。我们使用FC-128的输出作为embedding特征,将m设置为0.3。注意,在re-ID测试期间,我们使用Pool-5 (2,048-dim)的输出作为行人描述。

3.3 Camera Invariance Learning

在行人重识别测试过程中,相机所引起的图像风格的变化是一个关键的影响因素。为了实现目标域的相机不变性,我们对未标记的目标图像和包含同一人但相机风格不同的对应图像进行学习,从而实现相机不变性约束。
在这里插入图片描述
为了生成新的或多或少保留行人身份并反映了另一个相机的风格的目标图像,我们采用了CamStyle方法来学习目标集上的相机风格迁移模型。不同于[48]使用CycleGAN进行图像转换,我们基于StarGAN构建CamStyle。这是因为StarGAN允许我们用单个模型训练多相机的图像转换,而CycleGAN需要为每对相机训练一个迁移模型。假设我们在目标集上有C个相机,我们首先训练一个StarGAN模型,该模型能够在每个相机对之间实现图像转换。有了学习到的StarGAN模型,对于一个包含在目标集相机j 的真实图片xt,j,我们生成C个或多或少包含同一个人但风格与相机1,2,…,C一样的假图片。需要注意的是,C图像中包含了转换为camera j风格的图像,即真实图像xt,j的风格。CamStyle生成的真实图像和虚假图像示例如图2所示。

为了学习目标集相机不变性的行人embedding,我们把xt,j和它对应的假图片看作一类,把xt,j和其他所有图片看作不同的类。为了简单起见,我们省略了相机的下标。特别的是,我们通过无标签目标域样本 和它对应的相机风格迁移样本 来计算一个三元组损失。相机不变性学习的损失函数可以表示为:
在这里插入图片描述
其中nt是一个训练batch中真实目标图片的数量, nt*是相机风格迁移样本的数量。在我们的实验中,我们为每个真实的目标图像生成C个伪图像 。在一个训练batch中, 是在目标集中随机选择的,我们假设 属于不同类。从技术上讲,这种假设是不正确的,因为每个目标训练类都有一些图像,很可能同一个类的两个图像被选择到训练batch中。尽管如此,我们将在3.6节和图3中显示,我们的假设并没有显著影响性能。
在这里插入图片描述
3.4 Domain Connectedness Learning

在行人重识别中,不同的域具有完全不同的类/身份,因此源图像和目标图像自然形成负训练对。在此基础上,我们提出将源/目标图像作为目标/源图像的负匹配对,赋予系统域连通性。给定一个来自源域的锚图像,我们使用源域标签来构造一个正对。然后我们选择一个目标域图像与锚形成负对。形式上,给定标记源域样本 和未标记目标域样本 ,域连通性学习的损失函数定义为:
在这里插入图片描述
在这个损失函数中,由于目标图像的身份与源域中的身份不重叠,所以每个源图像和每个目标图像都是负对。因此,要考虑源与目标样本之间的关系,才能在一定程度上实现两个域之间的通信和底层结构。

3.5 Hetero-Homogeneous Learning

在本文中,我们认为相机不变性和域连通性对于一个有效的re-ID UDA系统是互补属性。为此,我们提出在一个训练batch中分别使用单个损失联合学习相机不变性和域连通性。特别地,一个训练batch中包含标记源图像 ,未标记真实目标图像 ,以及它们对应的假图像 。相机不变性学习和区域连通性学习的三元组损失函数可以表示为:
在这里插入图片描述
在这个损失函数中,我们同时执行两个属性:1)摄像机不变性,通过真实目标图像及其对应的伪图像来学习;2)区域连通性,通过将源/目标样本(包括其相机风格传递的样本)作为目标/源样本的负匹配对来将源/目标样本映射到共享特征空间。

最终,一个训练batch的整体损失函数为:
在这里插入图片描述
其中β是相机不变性和域连通性的联合损失的权重。由于领域连通性学习的异质样本选择方案和摄像机不变性学习的同质样本选择方案,我们将这种学习方法命名为“异质-同质学习(HHL)”。 同时,我们注意到交叉熵损失在公式6中是不可缺少的,它提供了一种仅在源上学习的基本辨别能力。如果没有交叉熵损失,系统将受到严重的损害。

3.6 Discussion

为什么要使用相机风格迁移? 在表1中,我们比较了采用不同数据增强方法(即随机裁剪、随机翻转和相机风格迁移)的图像之间的距离。显然,源集上训练的re-ID模型对目标集上的随机裁剪和随机翻转具有鲁棒性,但对摄像机引起的图像变化敏感。因此,目标集上不同的摄像机所引起的图像风格的变化是一个关键影响因素,应在行人re-ID UDA中明确考虑。
在这里插入图片描述
如何从目标域采样训练图像? 我们比较了三种采样策略,1)随机采样,我们在一个mini-batch中随机地采样了nt张目标图片并随机分配每个图像的非重叠身份;2)基于聚类的采样,在每个训练阶段开始时,我们利用k-means在现有学习的reid模型的基础上,将目标图像聚类到nt个聚类中心中,并从每个聚类中心中抽取一个图像样本,将目标域的训练数据组成一个mini-batch。基于聚类的抽样策略可以有效地避免在mini-batch中对同一标识进行抽样; 3)监督抽样,假设我们有标记的目标集,我们以监督的方式随机选择nt张图像,确保每个目标图像来自不同的身份。不同采样策略的比较如图3所示。很明显,随机抽样与其他两种策略的结果非常接近。这是因为当从包含大量图像和身份的目标集中随机采样少量图像时图像身份相同的概率非常低。因此,本文采用随机抽样。

4. Experiment
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值