论文地址:
这篇CVPR2018的佳作引人注目之处莫过于通过mask 提取出人体图像而去除背景在ReID过程中的影响。理论上讲这才是最接近人类进行物体识别时的步骤:我们不会把行人进行BBox,而是通过轮廓对人物进行辨识。
废话不多说了,下面正式对这篇论文进行讲解(翻译)。
摘要:
人员重新识别(ReID)是计算机视觉中一项重要且具有挑战性的任务。由于各种背景杂乱,观点和身体姿势的变化,它远未解决。如何提取对背景杂乱不变的判别和鲁棒特征是核心问题。在本文中,我们首先介绍二进制分割掩模来构造合成的RGB-Mask对作为输入,然后我们设计一个掩模引导的对比注意模型(MGCAM)来学习与身体和背景区域分开的特征。此外,我们提出了一种新颖的区域级三联体损失,以限制从不同区域学习的特征,即,从完整图像和身体区域拉近特征,而从背景推动特征。我们可能是第一个成功将二元掩模引入人ReID任务的人,也是第一个提出区域级对比学习的人。我们在三个公共数据集上评估所提出的方法,包括MARS,Market-1501和CUHK03。大量实验结果表明,该方法是有效的,并达到了最先进的结果。掩码和代码将根据要求发布。
1. Introduction:
二元体掩码可以在两个方面为ReID做出贡献。首先,掩模可以帮助消除像素级的背景杂波。这可以极大地提高ReID模型在各种背景条件下的鲁棒性。其次,面具包含可被视为重要步态特征的体形信息。已经证明,身体面罩对于照明,布料颜色是坚固的,因此对于识别人来说是有用的[35]。
利用二元体掩模的最直接的方法是直接掩盖图像中的背景。对于二元掩模,掩模图像仅包含预期比使用整个图像表现更好的体区。然而,在我们的实验中,我们发现与使用原始图像的图像相比,屏蔽图像的性能甚至更差(更多细节参见第4.3节)。这个结果意味着以“硬”方式直接用二元掩模去除背景不是一个好的选择,这可能会影响结构化信息和图像的平滑度。此外,错误分割的面具可能包含大量背景或丢失一些重要的身体部位,这将极大地影响性能。在这种情况下,删除特征级别中的背景可能是更好的解决方案。
为了解决这个问题,我们探索利用二元掩码来减少特征级别中的背景杂乱。我们提出了一种面罩引导的对比注意模型(MGCAM)来从身体和背景区域对比学习特征。如图1(b)所示,在特征空间中,从身体区域和完整图像学习的特征应该是相似的,而从背景和完整图像学习的特征应该是不同的。为此,提出的MGCAM首先在二元体掩模的指导下产生一对对比注意力图。然后将对比注意力图添加到CNN特征中以分别生成身体感知和背景感知特征。请注意,我们的区域级三重态损失应用于来自同一图像的区域特征,而不是来自不同图像的特征的其他三元组损失[12]。
为了从二元体掩模中学习与体形相关的特征,我们建议将其作为附加输入与原始RGB图像一起构建4通道图像。通过这种方式,CNN模型可以从RGB通道学习外观特征,并从掩模通道中学习体形特征。所以这种方法以相对“软”的方式工作。即使在最坏的情况下,即掩模完全错误,CNN模型仍然可以从RGB通道学习特征。我们的实验证明这种方法可以提高性能。
本文的贡献可归纳如下:
•为了减少带有蒙版的人物图像背景杂乱,我们设计了一个由二元蒙版引导的对比注意模型。它可以生成一对身体感知和背景感知的注意力图,可用于生成身体和背景的特征。
•我们进一步提出从完整图像,身体和背景的特征区域级三联体损失。它可以强制模型学习的特征对背景杂乱不变。
•我们探索将身体蒙版作为附加输入并伴随RGB图像来增强ReID特征学习。二元掩模有两个主要优点:1)它可以帮助减少背景杂乱,2)它包含身份相关的功能,如身体形状信息。
2.Related Works