paper下载地址:https://arxiv.org/abs/1711.08184
Introduction
大多数基于CNN的方法都是学习全局特征,而忽略了人的结构性。因此带来的缺陷是:
- 行人检测器检测框的不准确性会影响特征的学习。
- 人体形态或者姿势的变化使得度量学习变得更加困难。
- 遮挡给最终的特征带来不相干的上下文信息。
- 当两个人有相似外表时,局部特征将变得很重要。
本文提出了一种新的方法,称为AlignedReID。此方法仍然学习全局特征,但是比自动局部对齐性能更好,也不需要姿势估计。在学习阶段,两个分支联合学习全局特征和局部特征。在局部分支,采用最短路径算法进行局部对齐。在inference阶段,只使用全局特征。由于加入了局部分支,使得上述难点更加得有针对性,因此学习到的全局特征能够很好的表征一个人的ID。
同时,作者使用共同学习方法在各个公开数据集上都达到了state-of-the-art。
Approach
AlignedReID
作者使用输入图像的全局特征的 L2 距离进行相似性度量。
全局特征是在最后一层卷积层的后面加上一个global pooling得到的。比如Resnet-50最后一个卷积层的输出为 2048∗7∗7 ,加上一个global pooling之后,变成2048维的特征。局部特征是先对最后一个卷积层的输出进行横向pooling,得到 2048∗7∗1 ,然后加上一个 1∗1 的卷积层进行降维,最后输出为