动机:
这篇文章的出发点很明确,就是解决re-id问题中不同行人视角的匹配问题。在之前有不少文章,比如Pose-Normalized Image Generation for Person Re-identification这篇文章,就是将不同视角下的行人匹配到同一个视角下。与这篇的思想类似,作者想到,匹配到某个视角下这样误查一定很大,也不一定准确,所以,不一定要匹配到这样一个“具体的视角”而匹配到一个“共有的视角”,即common view。
创新:
- 基于common view的对抗学习。
这里作者采取了对抗学习的思路,希望不同视角特征分类准确,也希望不同视角特征更多表现趋近于共有的特征。所以,这里一定会有一个给样本数据标注不同view的分类器,和一个将view特征分类的分类器。这里第一个pre-trained CNN 为标注分类器,第二个由两个fc组成的为特征分类器。对与第二个分类器来说,它的目的是将不同视角的特征分类,并对应至相应的view label,而为了不同视角特征更多表现趋近于共有的特征,所以又希望同一ID不同view的样本特征尽量形似,这样就构成了一个对抗损失。
- 不同视角特征拉近:这里作者直接使用了center loss,目的就是拉近同一ID不同view的样本的特征距离&