摘要
与人之间的细微变化所带来的基本挑战需要人的再识别(Re-ID)模型来捕捉足够细粒度的特征。本文提出了在不需要额外辅助的情况下发现多种区别视觉线索的方法,如姿态估计、人类句法分析等。在此基础上,提出了一种类激活映射(Class Activation Maps, CAM)增强模型,以扩展基线再识别模型的激活范围,以探索丰富的视觉线索,其中主干网络由一系列有序的分支扩展,这些分支共享相同的输入但输出互补的CAM。提出了一种新的重叠激活惩罚,迫使当前分支关注先前分支较少激活的图像区域,从而发现空间多样性的视觉特征。该模型在三个Re-ID数据集上获得了最先进的结果。此外,本文还提出了一种可视化的排名激活图(RAM)方法,用于在测试阶段明确解释排名结果,并对所提出的方法进行了定性验证。
图1:(a)和(b)显示了提出的RAM。这些地图突出了基线和提出模型分别用来对图库图像进行排序的判别性视觉线索。绿色和红色边界的图像表示真阳性和假阳性。在©中,第一行显示相同ID的图像,第二行CAM突出显示图像区域,即手袋,基线模型用来识别这个人。第3至第4行的CAM显示了所提出的方法进一步发现了更多的视觉提示。
本文的主要贡献可归纳为三方面。(1)提出了一种端到端的多分支模型,可以灵活地发现足够多且多样化的区分性细粒度特征,而无需进行严格的空间划分或额外的局部定位模块。(2)提出了一种新的损失函数,即OAP,使CAMA中的不同分支有效地学习不同身体区域的互补视觉特征。(3)大量的实验结果表明,在三个大数据集上,该方法的性能优于其他最先进的方法,并首次提出了一种新的可视化方法,即RAM,来解释Re-ID排序结果。
图2:CAMA模型有3个分支。标签为t的图像通过ResNet-50和批归一化(BN)层形成特征图F,对Wi加权求和(Eq.(4))得到CAM,即Mi。然后在Mi上应用Global Average Pooling (GAP),得到类分数Si,其中C为训练类别数量。Mi的第t个通道,突出显示分支i用来识别输入图像的图像区域。在(a)中,用于计算重叠激活罚分,从而使不同分支中的激活区域不重叠。在(b)中,将识别损失
相加得到Lid。分支中的Wi不共享参数,(a)中的⊙表示元素的乘法。