【行人重识别】A Discriminatively Learned CNN Embedding for Person Re-identification

A Discriminatively Learned CNN Embedding for Person Re-identification

link: https://arxiv.org/abs/1611.05666

Author: Zhedong Zheng, Liang Zheng and Yi Yang

Code: https://github.com/layumi/2016_person_re-ID

Author email: zdzheng12@gmail.com 

Homepage: http://zdzheng.xyz

欢迎关注知乎专栏 行人重识别


这篇 行人重识别 paper主要ague的是  

1. verification label 为0,1二值。如果输入的两张图片为同一人,则为1,否则为0。

显然,这个label较弱,由于它没有利用上整的数据集的标注信息(每次只考虑了两个或三个样本之间label的关系,如contrastive loss 和 triplet loss)。

2. identity label为身份label。比如在Market1501数据集上,有751个identity,那么就是751个label。这个label较强,为数据集原始的标注信息。

如下图,可以直观的看到 对于身份认证模型(verification model)来说,虽然他显式的考虑了样本之间的相似度,但显然没有充分利用所有的label信息。

而对于身份分类模型(classification model),在一个batch中一起bp。其实潜在就融合了类内数据在高维空间相似和类间差异的要求。

于是提出的模型融合了这两种loss。


3. 网络模型如何

作者其实简单融合了原始的两种loss,并做了修改。在bp时,按权重将两种loss的梯度一同tune network。

篮框中的网络即为原来finetune的classification model,最后predict identity label。

其中Square Layer 即为 简单的欧式距离但element wise。所以得出的也是向量。再用这个向量去predict verification label。


4.classification和verification谁贡献更大?为什么融合以后好了?

作者还比较了单独使用两个模型的效果。来找到谁的效果更强。Paper中发现classification mode 略好一些。

至于融合以后,如下图,我们可以明显地看出两个网络各自学到了不同的attetion。当fusion之后,the proposed model显示出了一个attention的融合。




最后在market1501的无监督聚类效果图如下,可以看出学到了一些discriminative 特征





P.S. 虽然 Camera6为低清摄像头,但提出的embedding没有受到很大的影响。(相比于原始数据集中的Hist结果确实好很多了。。。)



阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Layumi1993/article/details/53562566
个人分类: 论文阅读
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭