行人重识别 论文学习

《Joint Discriminative and Generative Learning for Person Re-identification》  论文学习

1. 背景

行人重识别(Person Re-identification)也称跨镜追踪,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,主要解决跨镜头跨场景下行人的识别与检索,旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。

由于不同摄像设备之间存在类内差异(intra-class variations),比如相机拍摄角度不同、拍摄场景、光线不同等;同时行人兼具刚性和柔性的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,因此在行人重识别中的主要目标是设计或学习能稳健地抗类内差异的表达。

目前,在行人重识别中,卷积神经网络逐渐成为主要选择,因为它具有强大的表达能力和学习不变的深入嵌入的能力(ability to learn invariant deep embeddings)。最新的行人重识别方法都广泛地将该任务描述为深度度量学习问题(deep metric learning problems)[[1],[2]]或者使用分类损失作为学习深度嵌入的代理目标[[3],[4]]。为了减少上述提到的类内差异,很多现有方法采用了基于部分匹配或集成来显式对齐和补偿这些变化[[5],[6]]。

另一种增强对输入变化的鲁棒性的方法是让re-id模型在训练的时候潜在地看到这些变化(特别是类内变化)。随着生成对抗网络(GANs)的发展,生成模型已经成为自由引入额外的增强数据的最佳选择[[7]]。尽管形式不同,这些方法背后考虑的都是“真实感”和“多样性”。真实感是指生成的图像要有很好的质量来缩小合成场景和生成场景之间的区域差距。多样性是指生成的图像应有足够的多样性来充分覆盖看不见的变化。在此背景下,先前的一些研究探索了无条件GANs和行人姿势条件GANs来生成行人图像[[8],[9]],以改善re-id学习。

2.问题

生成高质量的行人图像有一定难度。主要体现在两个方面:1. 如前面所提到的,生成图像的真实度和多样性不够; 2. 需要额外的标注来辅助生成,比如需要额外的人体骨架或者属性标注等。而由于数据集的标注难度,行人重识别的训练集(如Market和DukeMTMC-reID)数据量一般在2W左右,远小于ImageNet等数据集,容易过拟合的问题也一直没有很好解决。若使用这些低质量的行人生成图像来训练行人重识别模型,会引入与原始数据集之间的差异(bias)

前人的工作中,通常只把所有生成的行人图像看成outlier来正则化网络; 或者额外训练一个生成图像的模型,和原始模型做融合;要么就是完全不用生成的图像去训练。这些方法中的常见问题是,它们的图像生成器通常以独立模块的形式出现,与re-id学习模块(discriminative re-id models)相对独立。因此,生成模块的优化目标可能与re-id任务不一致,从而限制了生成数据的增益。

 

 

3.创新点

该论文提出了一种将区别性学习和生成性学习(discriminative and generative learning)联合的统一网络,DG-Net。这是第一种实现综合识别学习和数据生成的端到端的联合学习框架。

该论文提出的模型包括生成模块(generative module)和嵌入的识别模块(discriminative module),其中生成模块的编码器将每个行人分别编码成外观码(appearance code)和结构码(structure code);识别模块和生成模块共享外观编码器,通过切换外观码和结构码的组合,生成模块可以产生高质量的交叉识别组合图片(cross-id composed images),如图1所示,给定N张图片。通过对外观和结构的重新组合,可以得到N*N张生成图。生成图像输入给行人重识别模型来学习好的行人特征,而行人重识别模型提取出来的特征在线反馈给生成模型来提升生成图像的质量。

所以该算法不需要额外标

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值