【论文阅读】Identity Preserving Generative Adversarial Network for Cross-Domain Person Re-identification

Identity Preserving Generative Adversarial Network for Cross-Domain Person
Re-identification
这篇文章2019年被发表在IEEEacess期刊
无监督
跨域

摘要

  • 行人再识别任务要求;
  • 问题:由于源域和目标域之间的偏差,大多数现有的人员再识别(re-ID)模型常常不能很好地从源域泛化。在源域中,模型被训练到一个没有标签的目标域。(解释一下语言作为例子)
    (源域和目标域:相机之间的偏差,分辨率 ,视角之间,外界环境,光照)
  • 解决:本文提供了一个标记源训练集和一个未标记目标训练集,目的是提高re-ID模型对目标域的泛化能力。(源域有标签,目标域没有标签)
  • 方法:propose an image generative network named **identity preserving generative adversarial network (IPGAN) (身份保持的GAN)(源域和目标摄像机域之间的偏差)
  • 优势:
    1 仅使用单一模型将标记图像从源域无监督地转换到目标摄像机域,生成多个具有目 标摄像机域样式的图像。然后利用IPGAN生成的翻译图像对reid模型进行训练;
    2 设计并训练了一个新的reid模型,称为IBNreID,其中引入了实例和批处理规范化块(ibn块)

Introduction

解决两个问题

任务要求:行人再识别 ,在监控系统中越来越重要
现有的识别算法大多尝试学习判别特征嵌入表示,以更好地度量人图像对之间的相似性,深度学习表征提供了较高的鉴别特征学习能力。大部分的reid方法都是在监督学习中,这些模型都是在相同的标记数据集(域)上训练和测试的。
局限性:
基于监督学习的作品需要一定数量的高质量训练样本和大规模的手工标签才能学习到最优的特征提取器。在现实世界中,收集这种规模的手工标签既昂贵又不切实际。
无监督(标记)
由于两个不同数据集之间的特征分布存在偏差,这些重新识别模型往往不能很好地从一个数据集推广到一个新数据集。
跨域(对其他域的适应能力-泛化能力)

源域(具有完全标记信息的数据集)/目标域(没有标记信息的数据集)

为了将信息从源域传递到目标域,大多数自适应方法都做了一个闭集假设,即,源域和目标域共享完全相同的类。(例子:语言)
然而,这种假设不适用于reid,因为非监督域自适应reid是一个开放集问题,其中来自两个域的类(人员)是完全不同的。因此,传统的无监督域自适应方法不适用于reid。

对于域的限定
别的方法:考虑了源和目标域之间的一般差距,而忽略了源域和目标摄像机域之间的具体差距。
问题:不同相机捕捉到的图像往往有许多明显不同的风格,因为用于图像采集的相机类型和场景不同。(相机的风格不同) 一个相机视图的特征分布可能与其他视图的特征分布有很大的不同。
提出:一个完整的域应该根据摄像机的数量划分为几个摄像机域(子域)
举例:例如,DukeMTMC-reID和Market1501分别拥有8个和6个摄像机域。只捕获两个域之间总体数据偏差的传输模型将面临严格的性能测试。较好的reid域自适应解决方案是减少源域与目标域内各摄像机域之间的偏差。(大部分考虑的是数据集之间的偏差,但是没考虑到数据集本来相机之间的偏差)

提出风格迁移的框架包含两个部分:

目标:

  • 在源域和目标摄像机域之间进行样式转换
  • 通过生成的图像作为输入,学习一个有区别的re-ID模型
    首先,为了减小两个域之间的距离,我们将图像的样式从源域转换为目标域。我们可以生成许多具有目标相机域样式的图像。然后,我们用生成的图像训练reID模型。

方法:

  • 第一部分,提出了一种 multi-domain image-to-image style translation approach,称为身份保留生成式对抗网络(IPGAN),与学习源域和目标域之间的映射关系不同,IPGAN旨在学习源域和目标摄像机域之间的映射关系。

  • 第二部分,提出了IBN-reID模型。它是一个简单但健壮的特性提取器

  • IPGAN
    可以生成具有目标相机域风格的图像,还可以保存原始的身份信息;
    创建一个新的数据集,它继承了源域的标签,并具有目标摄像机域的样式。然后,我们以监督的方式对新数据集上的reid模型进行训练,以对目标数据集进行测试;

  • IBN-reID
    该模型能够消除浅层的外观差异,并对深层的学习特征进行识别。
    模型中集成了实例规范化和批处理规范化。实例规范化提供了可视化和外观不变性,而批处理规范化加速了训练并保留了区别性特征。

贡献

  • 为了解决域适应问题,提出了无监督学习方法——IPGAN。 它的工作原理是使用模型将源域中的图像映射到目标相机域,同时保留源域中的图像的身份信息。
  • 提出了IBN-reID模型,该模型将外观不变性直观地引入到reid模型中。

Related work

GAN

最开始的p2p需要成对的图像进行训练,后来的GAN用循环一致性来保存关键属性。
但是,前面提到的所有框架都只考虑从源域到目标域的映射。在此基础上,我们提出了一种新的框架,该框架只使用一个模型就可以将图像从源域转换到各个目标摄像机域,从而提高跨域人员识别的性能。

Unsupervised domain adaptation

我们的工作是一种无监督域自适应方法,其中目标图像的标签是不可用的

流行的想法是减少源域和目标域之间的差异。CORAL通过调整源域和目标域两种数据分布的均值和协方差。通过引入最大均值差异(MMD),试图减少两个域之间的MMD距离。DANN将梯度反转层(GRL)集成到标准体系结构中,以确保在两个域上的特性分布相似。有许多方法试图为未标记的样品制作假标签。例如,训练分类器对有标签和假标签的样本进行预测。在[35]中,我们建模了三个分类器来为目标域中的样本生成假标签。近年来,许多基于生成式对抗性的领域适应方法提出了[14]网络。CyCADA通过利用像素周期一致性和语义损失实现像素级和特征级的域适应。

对于跨域人员重新标识任务,因为它们假定源域和目标域具有相同的类标签。实际上,在person - id中,不同数据集的标识(类)没有重叠。

Unsupervised person re-ID

现有的大多数reid模型都是基于监督学习,这些模型在现实环境中存在可伸缩性差的问题。近期采用深度学习技术对未标记目标数据集的标签进行估计。提出了一种无监督方法,该方法利用K-means为未标记的样本提供假标签,并用这些样本迭代地训练reid模型。使用k倒数最近的邻居,以获得近似的标签信息,为无监督的视频重新识别。基于CycleGAN [58], SPGAN通过自相似[8]将图像从源域翻译到目标域,在翻译过程中保持底层的身份信息。[45]在传输过程中保持相同的内容。

上述方法都是为了减小源域与目标域在图像空间和特征空间上的偏差,但都忽略了目标域对图像风格的影响。(大多数都考虑的是源域和目标域之间的差异,相当于两个域一起学习,考虑域内的差异,目标域域内的相机差异带来的影响 )

[57]考虑了目标相机引起的域内图像变化,学习了目标域的判别表示。但由于没有考虑识别语义约束,使得该方法不能保持原图像与翻译图像之间相同的识别信息。此外,上述方法在处理多个域时具有有限的可伸缩性,因为需要在每一对域上训练不同的模型。(语义约束怎么做到的)

与它们不同的是,我们的方法明确地考虑了源域和目标摄像机域之间的差异,并且我们只使用一个模型就可以学习多个域之间的关系。(因为starGAN可以同时学习多个摄像头的风格)

问题:
其他的GAN方法是学习另一个域的整体特征么,未考虑域内的差异;
考虑域内的差异是需要生成不同摄像头的风格,比如A-C1,A-C2, A-C3 ,学习了三个摄像头的风格,每张图像学习三个风格
源域的标签是怎么和目标域的相机对应呢

BASELINE RE-ID MODEL

源域,一个人有一个身份标签 X_s,I_s ; 目标域,未标记的数据集X_t;
目标是使用标记的源域来学习一个可转移的re-ID模型,它可以很好地在目标测试集中推广。
backbone network:ResNet-50,学习特征
我们使用两个FC层来替换pooling后的最后一个1000FC层
两个FC层的尺寸分别为1024和N,其中N是数据集中的类数

STARGAN

GAN讲解详

在这里插入图片描述
starGAN
讲解STARGAN
starGAN
在这里插入图片描述
# method

IPGAN

在真实世界中,不同的相机视图具有不同的相机样式和偏差,在本文中,我们将目标域中的每个摄像机域定义为一个子域。
一个子域的分布可能与其他子域的分布有很大的不同。因此,将目标域作为一个整体是不合适的。平滑源域和目标域之间的偏差的一种更好的方法是将图像从源域转换到每个目标摄像机域.
我们的方法可以保证所传输的图像具有与目标摄像机域中图像相似的样式。该方法还可以在图像翻译过程中保持源域图像的身份信息。Ddom的输入是由G(x;c)生成器生成的假图像和域标签。Dsem的输入是源域的样式翻译图像和源域图像的标识符

和STARGAN的区别

IPGAN是专门为跨域的reid设计的,在减少两个不同的reid数据集之间的偏差方面更有效
IPGAN不仅关注低层的外观变化,还关注高层的语义信息
IPGAN提出了一种新的语义鉴别器Dsem,实现了图像源域身份信息在翻译前后保持不变的约束。

IBN-re-ID model

比较详细的介绍IBN
举例讲解,通俗易懂

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值