基于 域内相机感知 和 跨域混合 的 跨域行人重识别方法
论文地址:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123600222.pdf
摘要:
当前用于行人重识别的全监督模型虽然在单域上已经可以达到显著成效,然而将其直接放在不可见的域(数据集)上,效果却难以达到令人满意的状态。考虑到跨域reID的特点,这种退化主要是有两方面原因:目标域内的变化(dramatic variation within the target domain) 和 源域目标域之间的转变(the severe shift between the source and target domain). 为了实现一个能够很好地推广到目标域的模型,则需要充分考虑以上两个问题。就第一个问题而言,最成功的解决方案之一是加强embedding space中最近邻之间的一致性。但是我们发现由于摄像机之间的差异,对邻居的搜索存在很大的偏差。为此,我们改进了传统的邻域不变性方法,在相机感知(camera-aware)的方式下施加约束。针对后一个问题,我们提出了一个新颖的跨域 混合(cross-domain mixup) 方法。它通过在两个域之间引入差值作为过渡状态来缓解突变。
研究动机:
随着深度学习的兴起,近年来全监督的reID模型取得了较大进步。然而这种方法的成功很大程度上依赖于目标领域中大量的注释数据,而这些数据在实践中通常是无法获得的。要绕过无标签的问题,一个解决方法就是在相关的有标签数据集(也即为源域)上训练模型。但不幸的是,由于数据分布的巨大变化,当直接部署到目标域时,这样的模型将遭受严重的性能下降。因此,研究跨域行人重识别问题是很有必要的。
给定带标签的源数据和未带标签的目标数据作为训练集,跨域reID致力于学习能够很好地推广到目标领域的模型。与传统的无监督域自适应(UDA)算法相比,跨域ReID具有开放集设置(open-set setup)和域层次结构(domain hierarchy)的特点。前者隐含了源域和目标域之间的不相交标记空间,打破了大多数UDA方法的基本假设。对于后者,每个域可以进一步划分为多个相机子域,因为不同相机的图像风格不同。根据域的层次结构,我们认为区域内的变化和区域间的转移是导致迁移效果较差的两个因素。
最近,一些研究已经验证了邻域不变性(neighborhood invariance)在处理目标域的域内变化中的有效性。这些方法配备了一个内存库,在整个数据集上搜索每个探针的邻居,并在它们之间施加一致性约束。然而,由于缺乏对目标域的监控,该模型不能很好地抑制相机间的变化(包括照明、视角和背景等)的影响。也就是说,在这种情况下,近邻搜索很容易偏向与探针(probe)来自同一摄像机的候选对象。更确切地说,在rank list中,相机间匹配的正样本更有可能排列在很多相机内匹配的负样本之后,这就混淆了模型学习。为了解决这个问题,我们通过对相机内匹配和相机间匹配分别施加约束来改善邻域不变性。尽管简单,这一提议带来了较大改善。
为了减轻域间差异的不利影响,早期的工作使用额外的生成模型跨域传递图像样式,这本质上是源和目标流形之间的高级插值。通过引入风格化图像作为中间域,这些方法期望避免由两个非常不同的域之间突然转变所引起的问题。根据这一观点,我们探索通过直接插值来自两个域的样本来实现相同的目的。与风格迁移不同,像素级的直接混合导致内容的变化,所以身份标签也要做相应的混合。这就是mixup过程。然而,直接使用普通的mixup是不合适的,因为它最初是为闭集问题而制定的。为了使它适用于open-set cross-domain person reID,我们增加了一个动态分类器。它不需要访问目标域的精确标签空间,即可以自适应地覆盖输入source-target pairs 的标签空间。
贡献:
总之,这项工作的贡献有三个方面。
- 为了避免邻居搜索的偏差,我们以相机感知的方式施加近邻不变性。尽管简单,但这种方法相对于与摄像机无关的方法有了显著的改进。
- 我们提出了一种新的跨域混合方案来平滑源域和目标域之间的转换。它可以用较小的开销显著提高了传输性能。
- 大量实验验证了该方法的有效性。它在Market-1501、DukeMTMC-reID和MSMT17数据集上实现了最先进的性能。