动机:
这篇文章的出发点很明确,就是解决re-id问题中不同行人视角的匹配问题。在之前有不少文章,比如Pose-Normalized Image Generation for Person Re-identification这篇文章,就是将不同视角下的行人匹配到同一个视角下。与这篇的思想类似,作者想到,匹配到某个视角下这样误查一定很大,也不一定准确,所以,不一定要匹配到这样一个“具体的视角”而匹配到一个“共有的视角”,即common view。
创新:
- 基于common view的对抗学习。
这里作者采取了对抗学习的思路,希望不同视角特征分类准确,也希望不同视角特征更多表现趋近于共有的特征。所以,这里一定会有一个给样本数据标注不同view的分类器,和一个将view特征分类的分类器。这里第一个pre-trained CNN 为标注分类器,第二个由两个fc组成的为特征分类器。对与第二个分类器来说,它的目的是将不同视角的特征分类,并对应至相应的view label,而为了不同视角特征更多表现趋近于共有的特征,所以又希望同一ID不同view的样本特征尽量形似,这样就构成了一个对抗损失。
- 不同视角特征拉近:这里作者直接使用了center loss,目的就是拉近同一ID不同view的样本的特征距离,这个与上一个目的相似。只不过这个更为显示。
- 联合sift特征:sift特征是传统图像处理很常见的一个对于图像特征的提取,并且具有旋转不变性,尺度不变性,这个与本文的思路不谋而合,所以可以借助sift特征对于图像的提取,拉近网络对于特征的提取。
框架:
框架结构: 主流+支流(common view feature)
特征:全局特征
损失函数:triplet loss
bacbone:resnet50
实验:
不同视角下得到common view feature map,效果还是很好的
使用resnet50的结果,并不是很高