【论文阅读】【Vehicle ReID】Vehicle Re-identification with Viewpoint-aware Metric Learning
《Vehicle Re-identification with Viewpoint-aware Metric Learning》是ICCV2019上的一篇关于车辆ReID的论文,介绍了一个名为VANet(viewpoint-aware network)的网络结构,论文整体思路比较清晰,实验论证也很充分。在这里简单分享一下对论文的一些理解。
原论文地址
研究背景和动机
在车辆ReID任务中,由于很多车辆外形很相似(特别是同一品牌型号的车辆),而拍摄的车辆图片的视角变化是很大的(最大180°),这就导致了在使用传统的特征提取网络时,同一辆车不同视角图片之间的差异,可能会比不同车在相同视角中的差异还要大。这就给ReID任务带来了很大的挑战。如下图中(a)、(b)、(c)所示。
作者从人识别车辆的过程中得到启发:人在判断两辆车是否是同一辆车时,如果两辆车是同一视角,那么人会仔细观察车辆的细节做出判断,而如果两辆车是不同视角的图片,人会更多地依赖联想记忆。因此文章的思路可以用一句话概括:分而治之,将相同视角下的图片和不同视角下的图片分开进行处理。
方案概述
论文将车辆ReID任务进行细化,首先使用一个CNN模型预测出车辆的朝向(正面、背面、侧面等)。然后通过两个分支分别完成处于相同视角(S-view,例如两个正面)的车辆和处于不同视角(D-view,例如一个正面一个背面)的车辆的ReID任务。在每个分支中,使用的是人脸识别算法中常用的三元损失函数,分别记作 L s L_s Ls和 L d L_d Ld:
L s = m a x { D s ( P s + ) − D s ( P s − ) + α , 0 } L_s=max\{D_s(P_s^+)-D_s(P_s^-)+\alpha,0\} Ls=max{
Ds(Ps+)−Ds(Ps−)+α,0} L d = m a x { D d ( P d + ) − D d ( P d − ) +